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Avant-propos 


Ce livre est destiné à tous les étudiants en sciences de la vie, de la Terre 
et de la santé : licences, pharmacie, médecine, IUT et BTS à dominante 
biologique ou agricole. Mais il concerne aussi tous les utilisateurs de sta- 
tistiques en laboratoire. 

Pour satisfaire l’attente d’un tel public, nous avons choisi d’aborder une 
large étendue de sujets. Comme ce livre est découpé en chapitres auto- 
nomes, chacun pourra, d’une année à l’autre, retrouver les sujets qui le 
concernent. Un index détaillé situé en fin d’ouvrage aidera dans ce 
choix. 


En statistique, les notations ne sont pas toutes universelles, ce qui com- 

plique la consultation d’ouvrages variés. Pour notre part, nous nous som- 

mes efforcés de respecter les règles de cohérence suivantes : 

— utiliser les lettres grecques pour des valeurs relatives à la population 
et des lettres latines pour des valeurs relatives à un échantillon ; 

— bien distinguer une variable aléatoire (notée par une majuscule) et 
une valeur numérique prise par cette variable aléatoire (notée par la 
même lettre, mais en minuscule). 


Pour des révisions express à l’approche d’un examen ou d’un concours, 
nous vous conseillons, chez le même éditeur : 


D. Fredon ; Statistique et probabilités en 30 fiches ; collection Express 
Sciences. 


Bien sûr, la charité bien ordonnée commence par soi-même. Mais il y a 
plus important : vous y trouverez des notations en cohérence avec ce 
livre, et des exercices différents pour compléter votre entraînement. 
Toutes vos remarques, vos commentaires, vos critiques, et même vos 
encouragements, seront accueillis avec plaisir. Vous pouvez me les com- 
muniquer à l’adresse électronique suivante : daniel.fredon@laposte.net 


Daniel Fredon 
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Statistique 
à une dimension 
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1.1 Généralités 


1.2 Représentations graphiques 


1.3 Paramètres de position 


Z 
= 


1.4 Paramètres de dispersion 
1.5 Paramètres de forme 


> Savoir représenter graphiquement une série statistique après avoir 
choisi l'aspect à mettre en évidence 


> Résumer certains aspects (position, dispersion, forme) d'une série statis- 
tique en calculant un nombre adapté 


OBJECTIFS 


1.1 GÉNÉRALITÉS 


Vocabulaire général 


La statistique étudie des ensembles appelés populations, dont les élé- 
ments sont appelés individus. Dans le cas d'une série statistique à une 
variable, à chaque individu on associe une éventualité d'un caractère 
statistique. 

Si les éventualités ne sont pas des nombres, le caractère est dit qualita- 
tif et les éventualités s'appellent les modalités du caractère. 

Si les éventualités sont des nombres, le caractère est dit quantitatif et les 
éventualités sont les valeurs du caractère. 

Un caractère quantitatif est dit continu s'il peut prendre toutes les 
valeurs d'un intervalle. Il est discontinu, ou discret, s'il ne peut prendre 
que des valeurs isolées. 
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Série statistique 


Dans le cas d'un caractère qualitatif ou quantitatif discret, on dispose 
d'une série statistique quand on connaît pour chaque individu la modali- 
té, ou la valeur, prise par le caractère. L'effectif d'une modalité, ou d'une 
valeur, est le nombre de fois où elle apparaît dans la population. 

Quand le caractère quantitatif est continu, ou discret avec beaucoup de 
valeurs, on considère des intervalles, en général du type ]a.b], que l'on 
appelle des classes statistiques. La longueur b — a de l'intervalle est 
l'amplitude de la classe. Sa densité est le quotient de l'effectif par l'am- 
plitude. 


Effectifs, fréquences 


Pour une valeur (ou une modalité) d'un caractère, ou pour une classe sta- 
tistique, la fréquence est le quotient de l'effectif concerné n; par l'effec- 


tif total n, soit : f; = —. 
n 
La somme des fréquences est donc égale à 1. 


Si on veut obtenir la répartition en pourcentages, il suffit de multiplier 
les fréquences par 100. 


Effectifs cumulés, fréquences cumulées 


Lorsque le caractère est quantitatif, on range les valeurs (ou les classes) 
par ordre croissant. 


> L'effectif cumulé jusqu'à k est la somme des effectifs associés aux 
valeurs du caractère qui sont inférieures ou égales à k. 


> La fréquence cumulée jusqu'à k s'obtient en additionnant les fré- 
quences associées aux valeurs < k, ou en divisant l'effectif cumulé 
par l'effectif total. 


1.2 REPRÉSENTATIONS GRAPHIQUES 


Cas d'un caractère qualitatif ou quantitatif discret 


> Si on veut insister sur la comparaison des effectifs, on trace un dia- 
gramme à bandes, ou un diagramme en bâtons. Les longueurs doi- 
vent être proportionnelles aux effectifs. 


> Si on préfère mettre en évidence les pourcentages pour comparer 
visuellement les structures de plusieurs séries statistiques (c'est-à- 
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dire les répartitions en pourcentages), on représente les données à 

l'aide : 

— de graphiques circulaires (parfois appelés camemberts), où les 
angles au centre du disque, ou du demi-disque, sont proportion- 
nels aux pourcentages ; 

— ou de bandes subdivisées de longueur fixe. 


Cas d'un caractère quantitatif continu 


On peut utiliser les représentations précédentes. Mais on construit le plus 
souvent un histogramme : 

Les intervalles des classes statistiques sont reportés sur un axe. Il servent 
de bases à des rectangles dont les aires sont proportionnelles aux effec- 
tifs. Pour ceci, les côtés des rectangles perpendiculaires à l'axe sont pro- 
portionnels aux densités des classes. 


1.3 PARAMÈTRES DE POSITION 


Moyenne 
a) Définition 
Notons x1,...,x, les valeurs du caractère, n1,...,n, les effectifs cor- 


respondants et n = n1 +--::+n, l'effectif total. La moyenne de la série 
statistique est le nombre : 


Quand les informations sont fournies avec des classes statistiques, on 
utilise la même formule en retenant comme valeurs x; les milieux des 
classes. 


La définition précédente est celle de la moyenne arithmétique. On définit aussi 


d'autres moyennes pour x; > 0 comme: 
p 


: n 
- la moyenne harmonique h telle que : RE — 
i= 
L Pl n, 
- la moyenne géométrique g telle que : g” = x} x +: x xp’. 


b) Propriétés 


La moyenne ne change pas si on remplace les effectifs par des effectifs 
proportionnels. 


6 Chapitre 1 + Statistique à une dimension 


La moyenne ne change pas si on remplace k valeurs x1,...,x4 affectées 
de coefficients n1,...,n, par leur moyenne partielle affectée de la 
somme des coefficients ñn1 + :--+nx. 

Par exemple, si la population est subdivisée en trois sous-populations 
dont les moyennes partielles sont x1,X2,X3 et les effectifs Ni,N:,N3, 
alors la moyenne de la population totale est : 


Nix + N%2 + N3%3 
N+N+N 


x 


Médiane 
a) Cas d'un caractère quantitatif discret 
On ordonne les n valeurs de la série statistique par ordre croissant. 


: 62 
Sin est impair, la médiane est la valeur de rang 


; É n n ; : L 
Si n est pair, les valeurs de rangs 5 et 5 + 1 déterminent un intervalle 


médian. On retient souvent comme médiane le milieu de cet intervalle. 


b) Cas d'un caractère quantitatif continu 


Dans ce cas, la médiane est le nombre m" tel que la fréquence cumulée 
jusqu'à m soit égale à 0,5. 


Mode 


On appelle mode, ou dominante, d'une série statistique toute valeur (ou 
modalité) correspondant à l'effectif maximal (densité maximale dans le 
cas de classes statistiques). 


1.4 PARAMÈTRES DE DISPERSION 


Variance, écart type 


Avec les mêmes notations que précédemment, on appelle variance de la 
série statistique le nombre V : 


vV = D Gi à — 3). 


i=l i=1 


On appelle écart type de la série statistique le nombre o = VV. 
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La variance peut aussi se calculer par : 


y =] . 2 —2 
= (Dn)-@ 


1 


Les calculatrices et les tableurs fournissent directement, sous des notations diverses, 
l'écart type © et la variance 62. 

Mais ils fournissent aussi un autre nombre s, sous des notations variées, qui est tel 
que : 


&? est destiné à estimer la variance d'une population quand on ne dispose que d'un 
échantillon de taille n. 

On l'appelle la variance estimée et elle ne doit pas être confondue avec la variance 
V de l'échantillon (cf. chap. 8). 


Coefficient de variation 


: se t 2 ne : (4 
Le coefficient de variation d'une série statistique est le quotient —. 
x 


C'est un nombre sans dimension qui permet de comparer la dispersion 
de séries statistiques dont les moyennes sont très différentes. 


Autres paramètres de dispersion 


> L'étendue d'une série statistique associée à un caractère quantitatif 
est la différence entre la plus grande valeur observée et la plus 
petite. 


> En partageant la série ordonnée des résultats en quatre parties de 
même effectif, on obtient les quartiles Q:1,Q2,Q3. Le deuxième 
quartile O2 est la médiane. L'écart interquartile est le nombre 


Q3 — O1. 
Boîte de dispersion (ou boîte à moustaches) 


C'est une représentation graphique d'un caractère quantitatif. Elle sert à 
comparer visuellement plusieurs séries statistiques. 

Pour une série donnée, on trace un rectangle qui s'étend de Q1 à O3 et 
on marque la médiane par un trait. On ajoute les moustaches qui sont les 
segments qui vont de la valeur minimale à Q, et de Q; à la valeur maxi- 
male. 
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+— L— 
+ L + en 
Xmin Q m Q3 Xmax 
Figure 1-1 


1.5 PARAMÈTRES DE FORME 


Moments 
1 P 
Pour r € N, on définit le moment d'ordre r : m, = — ) ni X;, 
1 { 
i=1 


1 P 
le moment centré d'ordre r : u, = — » ni (xi — X)'. 
qe i=] 


e LA e 2 

Coefficient y, de Fisher (dissymétrie) : y, — =. 
Si y, = 0, la distribution est symétrique. 
Si y, < 0, la distribution est étalée vers la gauche. 
Si y, > 0, la distribution est étalée vers la droite. 

û L 
Coefficient , de Fisher (aplatissement) : y, — _ — 3 

0j 


Si y; = 0, l'applatissement est le même que celui de la loi de Gauss 
réduite (cf. chap. 7). 

Si y, < 0, la distribution est plus aplatie. 

Si y, > 0, la distribution est moins aplatie. 


Effets d'un regroupement en classes 


Lorsque la série statistique comporte un grand nombre de valeurs, les 
calculs sont simplifiés en effectuant d'abord un regroupement en clas- 
ses, puis en remplaçant chaque classe par son milieu. Mais les résul- 
tats en sont légèrement modifiés. 


Exercices 9 


Si la distribution des valeurs est uniforme dans chaque classe, la 
moyenne n'est pas changée (associativité de la moyenne). 

Mais la variance, qui mesure la dispersion, est modifiée puisqu'on 
concentre toutes les valeurs d'une classe en un seul point. Dans le cas 


où toutes les classes sont de même amplitude d, on peut améliorer le 
2 


, ; d 
résultat avec la correction de Sheppard, qui consiste à retrancher D à 


la valeur de la variance obtenue à partir des valeurs groupées. 


© MOTS-CLÉS 


> Caractère statistique 


> Représentation graphique 


> Paramètres d'une série statistique 


EXERCICES 


1-1 On considère une série statistique de 60 taux d'hémoglobine dans le 
sang (g/L) mesurés chez des adultes présumés en bonne santé. La série 
est rangée par valeurs non décroissantes. Les valeurs en gras indique que 
le taux d'hémoglobine a été mesuré sur une femme. 

105 ; 110 ; 112 ; 112 ; 118 ; 119 ; 120 ; 120 ; 125 ; 126 ; 127 ; 128 ; 
130 ; 132 ; 133 ; 134 ; 135 ; 138 ; 138 ; 138 ; 138 ; 141 ; 142 ; 144 ; 
145 : 146 ; 148 : 148 ; 148 ; 149 ; 150 ; 150 ; 150 ; 151 ; 151 ; 
153 ; 153 ; 153 ; 154 ; 154 ; 154 ; 155 ; 156 ; 156 ; 158 ; 160 ; 160 ; 
160 ; 163 ; 164 ; 164 ; 165 ; 166 ; 168 ; 168 ; 170 ; 172 ; 172 ; 176 ; 179. 
Résultats partiels 


30 30 

Hommes : dx = 4766 g/L > — 759 954 (g/L)° 
j=1 i=1 
30 30 


Femmes : Ÿ x; =3988 g/L Ÿ x —536176 (g/L) 
i=1 i=l 
a) On considère le groupement en classes : 
1104;114] ; [114;1241 ; [124;134] ; 1134;144] ; 1144;154] ; ]154;164] ; 
]164;174] ; ]174;184] 
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Pour chacune des deux séries : hommes, femmes, déterminez les effec- 
tifs et les fréquences de chaque classe. 

b) Effectuez une représentation graphique adaptée des deux distributions 
groupées en classes de la question précédente. 

c) Calculez les moyennes x, x; x}, des trois distributions initiales : 


ensemble, femmes, hommes ; 
d) Calculez les moyennes x’, Fr x’, des trois distributions (ensemble, 


femmes, hommes) après le regroupement en classes de la question a), en 
remplaçant chaque classe par son milieu. 
e) Calculez les médianes m, my, m, des trois distributions initiales : 


ensemble, femmes, hommes. 

f) Calculez l'écart interquartile pour chacune des trois distributions 
initiales : ensemble, femmes, hommes. 

g) Calculez les variances et les écarts type des trois distributions initia- 
les : femmes, hommes, ensemble. 

h) Calculez les variances et les écarts type des trois distributions après le 
regroupement en classes de la question a), en remplaçant chaque classe 
par son milieu. 

i) Pour la distribution des femmes, calculez les moments m1,Mm,m3,m. 
Déduisez-en les valeurs des moments centrés L,,lU,/13,114, puis des 
coefficients de forme 7, et y, de Fisher. 


1-2 Dans l'étude de la répartition de la végétation en fonction de divers 
facteurs écologiques, on utilise une carte au 1/200 000 sur laquelle sont 
représentées les séries de végétation. On superpose une grille dont la 
maille est de 1 cm. Des renseignements annexes fournissent, pour 
chaque point de la grille, la température moyenne T en °C, la pluviosi- 
té annuelle moyenne P en mm, et la nature du sol. 

En étudiant la région de Limoges, on a ainsi obtenu pour la population 
constituée par les points étudiés : 


+ Pour le chêne pédonculé 


P 1700 ; 800] 1800 ;900] | ]900;1000] | ]1000;1100] | 11100 ; 1200] 
effectifs 10 85 185 122 138 

P 11200 ; 1300] | 11300; 1400] | 11400 ; 1500] | 11500; 1600] | 11600 ; 1700] 
effectifs 43 15 12 13 10 

P 11700 ; 1800] | 11800; 1900] | 11900 ; 2000] 
effectifs 6 5 1 


Solutions 


11 


mn 17 ;8] 18 ;9] 19 ;10] 10;11] ]11;12] | ]12;13] 

effectifs 4 25 109 250 205 52 
sols acides | calcaires | montagneux 
effectifs 502 49 94 
+ Pour le chêne pubescent 

P 1700 ; 800] 1800 ; 900] 1900 ; 1000] 11000 ; 1100] 
effectifs 14 103 37 3 

T 111 ;12] ]12;13] sols acides calcaires 
effectifs 34 123 effectifs 23 134 


a) En assimilant chaque classe à son milieu, calculez la pluviosité 


moyenne P; pour les zones où vit le chêne pédonculé, puis P; pour le 
chêne pubescent. Calculez les écarts type correspondant à ces deux 
séries statistiques et les coefficients de variation. 
b) Calculez de même les températures moyennes T et T2 et les écarts 
type correspondants. 
c) Construisez deux graphiques pour visualiser la comparaison de la 
nature des sols habités par le chêne pédonculé et le chêne pubescent. 

d) Conclusions écologiques ? 


SOLUTIONS 
1-1 a) 
femmes hommes 
classes effectifs fréquences effectifs fréquences 
1104 ;114] 4 0,133 0 0 
1114; 124] 4 0,133 0 0 
1124 ; 134] 8 0,267 0 0 
1134 ; 144] 6 0,200 2 0,067 
1144 ;154] 7 0,233 10 0,333 
1154; 164] 1 0,033 9 0,300 
1164 ; 174] 0 (e) 7 0,233 
1174 ; 184] 0 0 2 0,067 
total 30 1 30 1 
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b) On peut dessiner deux his- À effectifs 
togrammes en portant indif- 10 
féremment en ordonnées les 
effectifs, les fréquences ou 
les densités des classes, car 
les classes sont de même 
amplitude. 5 
E | L taux 
100 150 190 
Figure 1-2 
4766 + 3988 
c) Pour la série totale : x = TE — — 145,9 
3988 
Pour la série des femmes : x}; — Te & 132,9 
4766 
Pour la série des hommes : X%y — ETS & 158,9. 


1 
d) F= lt x 109+...+2 x 179] À 145,3 
1 
= gl * 109+-..+1 x 159] & 132,7 
1 
= gl X 139+-..+2 x 179] = 158 


Les différences avec les résultats de la question précédente signifient que la 
répartition dans chaque classe n'est pas uniforme. 


e) Pour la série totale, la valeur de rang 30 est 149 et celle de rang 31 est 
149 + 150 

150. D'où : m — = —- = 149,5. 

Pour la série des femmes, la valeur de rang 15 est 133 et celle de rang 16 

est 134. D'où : my = 133,5. 

Pour la série des hommes, la valeur de rang 15 est 156 et celle de rang 

16 est 160. D'où : mn = 158. 

f) Pour la série totale, la valeur de rang 15 est 133 ; la valeur de rang 16 

est 134. D'où : O1 = 133,5. 

La valeur de rang 45 est 158 ; la valeur de rang 46 est 160. D'où : 

Q3 = 159. 


Solutions 13 


Pour la série totale, l'écart interquartile est donc : Q3 — Qi = 25,5. 
Pour la série des femmes, la valeur de rang 8 est 120. D'où : Q1 = 120. 
La valeur de rang 23 est 114. D'où : Q3 — Q1 = 25. 

Pour la série des hommes, on obtient de même 

O3 — Q1 — 166 — 151 — 15. 

g) Pour la série des femmes, on a, en utilisant le théorème de Koenigs : 


536 176 ee: 


RE 30 
Pour la série des hommes : 


70 (CT 


2 
) 201,3 d'où : of = /V; 14,2. 


ET 30 
Pour la série complète : 
y — 759 954 + 536 176 


2 
) & 93,2 d'où : op = /Vn © 9,7. 


(145,9 & 315,4 d'où : o = VV # 17,8. 


60 

h) On obtient : 
pour la série des femmes : V; & 196,6 et a.# 14,0 
pour la série des hommes :  V} = 109 et oo, 10,4 
pour la série totale : V'&313,2 et o =17,7 
i) Pour la série des femmes : 

3988 536 176 
Mi = 730 & 132,9 ; m2 = & 17 872,5 

LÉ US I2 A0 

= 7, = ——— à 2 429 079 

CPRan 2 30 

re 10 006 377 210 
ma EN 334 545007 


ET LE 30 
Ho = M — m° & 201,3 

Ua = M3 — 3mim) +2m; © —285,4 

La = Ma — 4mim; + 6m° m2 — 3m) = 84493,1 
H3 


Coefficient y, de Fisher : y, = GA & —0,100. Comme 7, < 0, la 
H2 


distribution est étalée vers la gauche. 


Coefficient 7, de Fisher : +; = —3 & —0,914. Comme 7, < 0, 


Ha 
(2° 
la distribution est plus aplatie que celle de la loi de Gauss réduite. 
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1-2 a) Paramètres des deux séries statistiques de pluviosité 


Pour le chêne pédonculé : 


Pr 10m 201 200 nm: L % 0,19. 
1 
Pour le chêne pubescent : 
a © 
P © 868,5 mm : 02 60,6 mm : _ % 0,07. 
2 


b) Paramètres des deux séries statistiques de température 
Pour le chêne pédonculé : 


T1 & 10,7 °C : 03 & 0,99 °C ; _ = 0,09. 
1 


Pour le chêne pubescent : 


T2 # 12,3 °C : 04 0,41 °C ; o % 0,03. 
2 


c) Représentations graphiques de la nature des sols 


Si on veut comparer la nature des sols habités par le chêne pédonculé et 
par le chêne pubescent, ce sont les pourcentages qui interviennent et non 
les effectifs. Pour ceci, on peut adopter des graphiques circulaires. 


chêne pédonculé 


b 4 


montagneux 


Figure 1-3 


chêne pubescent 


Sols Chêne pédonculé Chêne pubescent 
% angles en ° % angles en ° 
acides 77,83 280 14,65 53 
calcaires 7,60 27 85,35 307 
montagneux 14,57 53 0 0 
total 100,00 360 100,00 360 
acide 
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d) Conclusions écologiques 

On observe que le chêne pubescent préfère un climat plus chaud 
(T2 > Ti)et plus sec (P2 < Pi) que le chêne pédonculé. Par ailleurs, 
les sols occupés par le chêne pédonculé sont le plus souvent acides et 
ceux occupés par le chêne pubescent sont souvent calcaires. On peut dire 
aussi que le chêne pédonculé est une espèce plus résistante car il accep- 
te des températures et des précipitations plus variées (coefficients de 
variation plus élevés). 

En fait, pour la série de végétation étudiée, c'est la nature du sol qui est 
le facteur primordial. 


Statistique 
à deux dimensions 


CHAPITRE 


2.1 Distribution à deux dimensions 


2.2 Paramètres d'une série statistique double 


PA 
< 
— 
LE 


2.3 Ajustement 
> Savoir déduire des informations d'une étude menée simultanément sur 
deux caractères X et Y. 


> Modéliser une dépendance affine entre un caractère numérique Ÿ et un 
caractère numérique X susceptible d'expliquer Y. 


OBJECTIFS 


> Quantifier la qualité du modèle ainsi obtenu. 


2.1 DISTRIBUTION À DEUX DIMENSIONS 
Généralités 
Déterminer une distribution statistique à deux dimensions relative au 
couple (X,Y), c’est connaître: 


— les valeurs possibles x;,...,x, pour le caractère statistique X (ou les 
modalités, ou les classes) ; 

— les valeurs possibles y1,...,y, pour le caractère statistique Y (ou les 
modalités, ou les classes) ; 

— l'effectif n;; correspondant à chaque observation 
(X =xietY = y;). 

Si n désigne l'effectif total, la fréquence correspondante est f;; — _ 

n 
Ces renseignements se présentent souvent avec un tableau à double 
entrée. 
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Distributions marginales 


À partir de la distribution statistique du couple (X,Y), on peut déduire 
la distribution statistique concernant le caractère X seul, et celle qui est 
relative au caractère Y seul : 


q 
Ni 
(X = x;) a pour effectif : n;. = DT et pour fréquence : fi. = — 
n 


j=1 


P 

n.j 

(Y = y;) a pour effectif : n.; = 7 et pour fréquence : f.; = ne 
i=l 


La détermination des effectifs n;. et n.; se fait à partir du tableau à dou- 


ble entrée par addition suivant les lignes et les colonnes, et en reportant 
les résultats en marge du tableau. 


Distributions conditionnelles 
a) Distribution conditionnelle de Y pour X = x; 


C’est la distribution des n;. observations vérifiant la condition X = x; et 
réparties selon les valeurs prises par Y. Pour ceci, il suffit d'extraire du 
tableau à double entrée la ligne correspondant à X = x;. 

On obtient des fréquences conditionnelles en divisant ces effectifs par 
ie. 


b) Distribution conditionnelle de X pour Y = y; 


De la même manière, c’est la distribution des n.; observations vérifiant 
la condition Y = y;. Et en divisant par le total n.; de la colonne j, on 
obtient des fréquences conditionnelles. 


Indépendance statistique 


Deux caractères statistiques X et Y sont dits indépendants si : 

Vi Vj Ji = fi X f.; ou, ce qui revient au même : 

Nie X Nej 

Pig CE 
n 


À Pour qu'il y ait indépendance, il faut que l'égalité ait toujours lieu . Pour démontrer 


€ 


qu'il n'y à pas indépendance, il suffit de fournir un seul cas où l'égalité n'a pas lieu. 


L'indépendance statistique de X et de Y correspond au fait que les lignes 
sont proportionnelles, ainsi que les colonnes. 
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L'indépendance statistique de X et de Y correspond à la fois : 

— à l'indépendance de Y par rapport à X : les fréquences conditionnel- 
les de Y pour X = x; ne dépendent pas de i ; 

— à l'indépendance de X par rapport à Y : les fréquences conditionnel- 
les de X pour Y = y; ne dépendent pas de j. 


2.2 PARAMÈTRES D'UNE SÉRIE STATISTIQUE DOUBLE 


Moyennes et variances marginales 


. le … LS _- ; 
X = : D _nx Y— ï + à y; G(X,y) est le point moyen. 


i=1l j = 


1 
»-1(S 2) _ x} 
(X) = 9 =, Dm Gi =D = (Dr) -® 


1 1/ 
VO ==) ns O3 = (Dr #) = GY 
j=1 j=1 


Covariance 
Définition 
1 _ ” 
Con) = Nr; Gi x) 0, 7) 
I<i<p 
1<j<q 
D 5 
re Mi di 5 || EE Y 
M || 1e 
1<j<q 
Propriétés 


> Cov (aX + b,cY + d) = acCov(X,}) 
> Cov(X,X) = V(X) 
> |Cov (X,7)| < o(X) o(Y). 


> Si les caractères X et Y sont indépendants, alors Cov (X,Y) = 0. 
Attention, la réciproque est fausse. 
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Corrélation 


Définition. On appelle coefficient de corrélation linéaire de X et de 
Y le réel r défini par : 


Eu Cov (X,}) | 
De) 


Propriétés 


> Le nombre r est invariant pour tout changement d’origine et 
d'échelle. 


> Onatoujours —1 <r< 1. 


Y 


Si X et Y sont indépendants, alors r = 0 ; la réciproque étant fausse. 
> Le nuage des points (x;,y;) est une droite si, et seulement si : r = 1 
(droite à pente positive) ou r = —1 (droite à pente négative). 

Si |r| est voisin de 1, on dit qu’il existe une forte corrélation linéaire 
entre X et Y. 


A Attention, cela ne signifie pas qu'il existe une relation de cause à effet entre X et Y. 
La confusion entre corrélation et causalité est une erreur courante. 


2.3 AJUSTEMENT 


La méthode des moindres carrés 
a) Généralités 


On considère un nuage de points (x1,y1),...,(x),y)) avec des coeffi- 
cients de pondération n1,...,n, (le plus souvent ces coefficients sont 
tous égaux à 1). 

L’allure du nuage de points et des considérations sur le phénomène 
étudié peuvent suggérer une relation fonctionnelle entre x et y, par 
exemple : 

y=ax+b;y= ax? ;y = alnx + b.. 

Après avoir choisi un modèle, une distance entre les points expérimen- 
taux donnés et une courbe du type choisi, on détermine les valeurs des 
paramètres qui rendent la distance minimum. 


b) Ajustement par une droite 


Quand les points expérimentaux sont à peu près alignés, on retient 
comme modèle y = ax + b (ajustement affine), ou y = ax (ajustement 
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linéaire) quand la droite passe obligatoirement par l’origine. 
Dans la méthode des moindres carrés, on choisit de rendre minimum 
la distance S, somme des carrés des écarts verticaux. 


y=ax+b 


S=Z2 n,(y,- ax, b}? 


i=1 


Figure 2-1 


Droite de régression de Ÿ par rapport à X 


La droite d’équation y = ax + b qui rend $ minimum est celle qui 
passe par le point moyen M(x,y) et dont la pente est égale à : 


_ Cov(X.r) 
1 y) 


Cette droite s’appelle la droite de régression de Y par rapport à X. 
La covariance de X et de Y est définie par : 


1 2 1 P 
Cov(X, 7) = = D ni Ci X) (y: D=r(Dnn)-55. 


i=1 


La deuxième expression se retient par : 


moyenne des produits — produit des moyennes. 


& > L'écriture de Cov(X, Y) est modifiée car, ici, la série statistique n'est pas 
é donnée par un tableau à double entrée, mais par des points expérimen- 
taux numérotés avec un seul indice. 
> De nombreuses calculatrices donnent directement r et les coefficients de 
la droite de régession. Regardez si votre machine donne y = ax + b ou 
y = a+ bx. 
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Décomposition de la variance 


Quand on cherche une droite de régression de Y par rapport à X, les 
variables X et Y ne jouent pas le même rôle : 

Y est la variable à expliquer ; 

X est la variable potentiellement explicative. 

Après obtention de la droite de régression de Y par rapport à X, on peut 
écrire : 


1 P 
VE) = VX +b)+ = D [ni Gi — ax — b) 
Mt 


égalité que l’on interprète par : 

variance de Y = variance expliquée par l’ajustement affine + variance 
résiduelle 

On constate que : 


variance expliquée  V(aX+b) , V(X)  (Cov(X,Y j): ; 
variance totale V(Y) V(Y) V(X) V(Y) 


r? apparaît donc comme une mesure de la qualité de l’ajustement affine. 


po) Autre modèle : ajustement linéaire 


La droite d’équation y = ax qui rend S minimum est définie par : 


P 
) Hi Xi Yi 
i=1 


orar 
) ni 2e 
i=1 


La qualité de l’ajustement linéaire réalisé peut être mesurée par le 
nombre : 


(n)(Drot) 


On a toujours 0 < d < 1. 
Tous les points sont alignés si, et seulement si, d = 1. 
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& MOTS-CLÉS 


> Distributions marginales 
>  Ajustement affine par la méthode des moindres carrés 


> Coefficient de corrélation linéaire 


EXERCICES 


2.1 Dans une population constituée par des ménages ayant des enfants, 
on a procédé à l’étude simultanée des deux caractères statistiques quan- 
titatifs : 

X le nombre d’enfants ; 

} l’âge du premier enfant. 

Les effectifs obtenus figurent dans le tableau ci-dessous : 


Y . de0à4 | de5à9 | de10à14 de15à19 | de 20 à 24 
x 
1 30 28 35 43 21 
2 26 35 32 31 27 
3 20 29 26 23 18 
4 15 18 16 19 
5 3 4 5 10 


a) Déterminez les distributions marginales de X et de y. 
b) Les deux caractères X et Y sont-ils indépendants ? 


2-2 On veut voir si la tension artérielle Y est corrélée à l’âge X. 

Après mesures et calculs, on obtient : 

moyennes :X—35 ; y—13,5 

variances : V(X)—64 ; X(Y)—4 

covariance : Cov(X,Y}) = 10. 

Calculez et commentez le coefficient de corrélation linéaire entre X et Y. 


2-3 Dans la série statistique suivante, x représente le nombre de jours 
d’exposition au soleil d’une feuille et y le nombre de stomates aérifères 


au mm2. 
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x 2 4 8 10 24 40 52 
y 6 11 15 20 39 62 85 


En admettant que y est une fonction de x, ajustez à la série une droite 
d’équation y = ax + b par la méthode des moindres carrés. 


2-4 On met au point une méthode de dosage d’une vitamine en s’ap- 
puyant sur l’existence généralement observée d’une relation affine entre 
le diamètre d’une colonie bactérienne et le logarithme de la dose de vita- 
mine contenue dans son milieu de culture. 

Avec les résultats expérimentaux ci-dessous, 


Dose en 19 10 20 40 
Diamètre en mm 2 53152 3 ;, 5 ; 4 6; 7; 6 


quelle est la meilleure estimation de la dose contenue dans un milieu où 
la colonie bactérienne aurait un diamètre de 3 mm ? 


2-6 Une étude théorique de l’évolution d’une population en extinction 
conduit à penser que le nombre d’individus N de cette population varie 


Kt où a et k sont des 


avec le temps f suivant une loi du type: N(f) =ae 
constantes strictement positives. 

On veut déterminer expérimentalement la valeur de la constante k. Pour 
cela, on observe pendant 8 mois un échantillon composé initialement de 


200 individus, notant à la fin de chaque mois le nombre de survivants : 


N(t) | 180 | 154 | 140 | 120 | 112 97 84 76 


a) Déduisez-en une valeur approchée de k lorsque r est exprimé en mois, 
en utilisant un ajustement affine. 

b) Quel sera, à votre avis, le nombre de survivants de cet échantillon à la 
fin de l’année en cours ? puis à la fin de l’année suivante ? 


2-7 Pour une personne, on a fait varier l’intensité du travail fourni X 
exprimée en kilojoules par minute et on a relevé la fréquence cardiaque 
Y (nombre de battements par minute). On a obtenu les résultats 
suivants : 
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a) Représentez ces données par un nuage de points. 

b) Calculez le coefficient de corrélation linéaire r. 

c) Déterminez la droite de régression de Y par rapport à X. 

d) Décomposez la variance de Y en variance expliquée par l’ajustement 
affine et variance résiduelle. 

e) Estimez la fréquence cardiaque lorsque l'intensité du travail fourni est 
de 30 kilojoules par minute ; puis lorsqu'elle est de 75. 


SOLUTIONS 


2-1 a) Les distributions marginales s’obtiennent par addition en lignes 
et en colonnes, ce qui donne 


A 


> pour X : 
valeurs 1 2 3 4 [25 
effectifs | 157 151 | 116 70 | 22 
> pour Y: 
valeurs de 0 à 4 de5à9 de 10à14 | de15à19 | de 20 à 24 
effectifs 78 110 115 118 95 


Dans les deux cas, le total est le même, ce qui permet une vérification. C'est le total 
général n = 516. 


b) Les deux caractères ne sont pas indépendants. Pour le prouver, il suf- 
fit de fournir un seul contre-exemple. Pour la première case du tableau, 


| 157 x 78 ; 
la valeur en cas d’indépendance D & 23,7 est différente de la 


valeur observée 30. 
Il est normal qu'il n'y ait pas indépendance statistique, car l'âge du premier 
enfant est en général plus élevé quand il y a beaucoup d'enfants. 

Cov (X,}) 10 


A) ot) Le 
Ce résultat correspond à une corrélation assez faible. 


2-2 Ona r — & 0,625. 


2-3 Si les calculatrices statistiques sont autorisées, on obtient directe- 
ment : 


y = 1,5247 x +3,5056. 
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Sinon, vous devez d’abord calculer x = 20 et V(X) = 323,43, puis 
y = 34 et V(Y) = 754,29, puis Cov(X,}) & 493,14. 
La droite de régression de Y par rapport à X 
— passe par le point moyen (X,y), 
— à pour coefficient directeur Ce & 1,5247. 
V(X) 
Elle a donc pour équation : 
y —34=1,5247(x — 20) soit y = 1,5247 x + 3,5056. 


On peut juger la qualité de l'ajustement affine en calculant le coefficient de cor- 
€ rélation linéaire: 
AU QE EC” "T7 
G(X)6(Y) 17,98 x 27,46 


Comme rest très voisin de 1, les observations expérimentales sont très bien modé- 
lisées par la relation y = ax + b. Mais n'oubliez pas que la validation du modèle a eu 
lieu pour x entre 2 et 52. 


2-4 Soit y le diamètre (en mm) de la colonie bactérienne, et x = In d le 
logarithme népérien de la dose d de vitamine contenue dans le miieu de 
la culture. 

Il s’agit d'ajuster une droite d’équation y = ax + b aux résultats expé- 
rimentaux : 


x In 10 In 10 In 20 In 20 In 20 In 40 | In40 
y 2 3 3 4 5 6 7 
effectifs 2 1 1 1 1 2 1 


Si les calculatrices statistiques sont autorisées, on obtient directement : 
y = 2,885 x — 4,422. 
Sinon, vous devez d’abord calculer x & 3,00 et V(X) Æ 0,320, puis 
y & 4,22 et V(Y) = 3,062, puis Cov(X,Y) = 0,924. 
La droite de régression de Y par rapport à X 
— passe par le point moyen (x,7y), 
; . Cov(X,}) 
— à pour coefficient directeur —— % 2,885, 
FO) 
et on retrouve la même équation. 
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, On peut juger la qualité de l'ajustement affine en calculant le coefficient de 
D) corrélation linéaire : 
_ Cov(X, Y) Fe 0,924 
G(X)6(Y) 0,566 x 1,75 


= 0,938. 


Comme r est voisin de 1, les observations expérimentales sont bien modéli- 
sées par la relation y = ax + b. 


Si y = 3, on obtient en reportant l’estimation : x = 2,572, 
puis d =e* & 13,1. 
Vous pouviez aussi choisir pour x le logarithme décimal de d. La valeur de x 


obtenue est évidemment différente, mais avec la bonne fonction réciproque 
d = 10*, la valeur prévue de d'est la même. 


2-6 a) Évolution d'une population en extinction 


Beaucoup de calculatrices ont une fonction qui permet de rentrer les données bru- 
€ tes et d'obtenir l'ajustement par une fonction exponentielle, donc de répondre 
directement à la question. 

Mais ici, l'énoncé impose de détailler en passant par un ajustement affine. 


Le modèle théorique peut aussi s’écrire : 
nNN=-kt+Ina 


ce qui signifie une dépendance affine entre In N et . Pour obtenir la droi- 
te de régression de In N par rapport à £, il faut transformer les résultats 
expérimentaux : 


t 0 1 2 3 4 5 6 7 8 


InN |In200|In180 |In154|In140 /In120|/In112| In97 | In84 | In76 


En rentrant ces valeurs dans votre calculatrice, vous obtenez : 
In N = —-0,12r + 5,30. 


Par identification au modèle, on obtient donc : 
k = 0,12 et Ina = 5,3 soit a = e"4 — 200,4. 


On peut juger la qualité de l'ajustement affine en demandant à sa calculatrice le 
€ coefficient de corrélation r Æ —0, 9998. La corrélation étant très forte, le modèle 
théorique s'ajuste très bien aux données expérimentales. 


b) Estimation affine 
En reportant dans l’équation de la droite de régression de In N par rap- 
port à f, on obtient : 
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pour { = 12 : In N = 3,84 soit N & 46 
pour { = 24 :In N =2,38 soit N & 11 


Mais ce calcul nécessite que le modèle reste valable pour des valeurs de t exté- 
€ rieures à la zone observée. Il s'agit d'extrapolation, et c'est une démarche parfois 
risquée. 


2-7 a) Nuage de points 

On observe que les points 
expérimentaux sont à peu 
près alignés, ce qui justifie 
l'hypothèse d’un modèle du 
type y = ax + b. 


b) Calculs 

x = 32,8; V(X) = 278,72 ; o(X) = 16,695 

y= 112; V(Y) = 762; o(Y) & 27,604 
Cov(X,Y) 


Cov(X,Y) = 454; r = ——— 
o(X) o(Ÿ) 


& 0,985. 


r étant voisin de 1, cela signifie que le modèle y = ax + b traduit bien la réalité 


À. expérimentale et que a > O. 


€ 
c) Droite de régression de Ÿ par rapport à X 
Elle passe par le point moyen (x, y) et a pour coefficient directeur : 
_ Cov(X,r) 
VX) 
a donc pour équation : y = 1,629x + 58,573. 


% 1,629. La droite de régression de Y par rapport à X 


d) Décomposition de la variance de Y 
Variance expliquée par l’ajustement affine : 

V(aX + b) = a? V(X) & 739,51. 
Comme V(Y}) = 762, la variance résiduelle est : 


762 — 739,51 = 22,49. 
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variance expliquée 


On a: = r? & 0,970 484. 


variance totale 


L’ajustement affine permet donc d’expliquer 97 % de la variance totale, 
ce qui confirme la qualité du modèle affine. 


e) Estimation affine 


En remplaçant x par 30 dans l’équation de (D;), on obtient y = 107. 
Cette estimation de la fréquence cardiaque est bonne car la corrélation 
est forte et on vient de réaliser une interpolation affine. 

En remplaçant x par 75, on obtiendrait y = 181. Mais il s’agit d’une 
extrapolation car 75 est en dehors de la zone des valeurs observées et 
rien ne permet de supposer que le modèle reste valable. En particulier, il 
est très possible que cette intensité du travail soit insupportable! 


Quand on modélise des observations expérimentales, il faut à la fois apprécier la 
qualité du modèle (ici, c'est le calcul de r) et ne pas oublier qu'un modèle a toujours 
une zone de validité limitée (dont les bords peuvent être imprécis). On peut avoir 
une fonction mathématique définie pour des valeurs où elle ne représente plus rien 
sur le plan expérimental. 


Probabilités 
(généralités) 


CHAPITRE 


3.1 Algèbre des événements 


3.2 Probabilités : définitions et propriétés 


Z 
< 
1 
LE 


3.3 Construction d'une probabilité sur un univers fini 

3.4 Rappels et compléments d'analyse combinatoire 

> Comprendre une formalisation élémentaire des premiers concepts : 
expérience aléatoire, événement, probabilité 


> Faire les calculs nécessaires pour construire une probabilité dans le cas 
d’un nombre fini de possibilités 


OBJECTIFS 


> Savoir dénombrer diverses situations en comptant tous les cas, une fois, 
et une seule 


3.1 ALGÈBRE DES ÉVÉNEMENTS 
Généralités 


Une expérience aléatoire £ est une expérience qui, répétée dans des 
conditions apparemment identiques, peut conduire à des résultats diffé- 
rents. L'ensemble de tous les résultats possibles est l’univers © associé 
à €. 

On dit qu’un événement est lié à € si, quel que soit le résultat w € Q, 
on sait dire si l’événement est réalisé ou non. On convient d’identifier un 
tel événement à l’ensemble des w € © pour lesquels il est réalisé. Un 
événement lié à € est donc identifié à une partie de 2. 


Événements particuliers 


Un singleton {w} est un événement élémentaire. 
Q est l'événement certain car il est toujours réalisé. 
S est l’événement impossible car il n’est jamais réalisé. 
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Opérations sur les événements 


a) Événement contraire À 
À est réalisé si, et seulement si, À n’est pas réalisé. 


b) Événement A N B 


A NB est réalisé si, et seulement si, À et B sont simultanément réalisés. 

Plus généralement, A A; est réalisé si, et seulement si, tous les événe- 
iel 

ments sont réalisés. 

SiANB = ©, c’est-à-dire si la réalisation simultanée des événements 

À et B est impossible, les événements À et B sont incompatibles. 


c) Événement 4 U B 


A U B est réalisé si, et seulement si, au moins un des événements est 

réalisé. Plus généralement, U A; est réalisé si, et seulement si, au moins 
iel 

un des événements est réalisé. 


d) Système complet d'événements 


Une partition de © est un système complet d'événements. Autrement 
dit, des événements (A;);-, forment un système complet s’ils sont diffé- 


rents de &, deux à deux incompatibles et si U A5 —" (2; 
iel 


e) Inclusion 


À C B signifie que la réalisation de À implique la réalisation de B. 


Tribu des événements 


a) Dans le cas où {2 est fini, ou dénombrable (en bijection avec N), on 
retient P(S2) — T comme ensemble des événements liés à €. 

b) Dans le cas où © est infini non dénombrable, on retient comme 
ensemble des événements liés à €, une partie 7 de P($2) qui vérifie les 
propriétés suivantes : 

DAET 

@AET— AE T (stabilité de 7 par passage au complémentaire) 
(3) Pour toute suite (A,),eN d'éléments de 7, U An = AoÙ A; ::: 


neN 
est encore un élément de 7 (stabilité de 7 par réunion dénombrable) 
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On dit que 7 est une tribu sur 2. 
Les trois axiomes de définition de T entraînent les autres propriétés : 
4) SeT 


(5) Pour toute suite (A,),eN d'éléments de 7, A An = AoN À: ::- 
neN 
est encore un élément de 7 (stabilité de 7 par intersection dénombrable) 


c) Dans tous les cas, on appelle espace probabilisable lié à l’expérien- 
ce aléatoire €, le couple (2,7) où {2 est l’univers des résultats possibles 
et 7 la tribu des événements liés à €. 


3.2 PROBABILITÉS : DÉFINITIONS ET PROPRIÉTÉS 
Définitions 


(@,7) étant un espace probabilisable associé à une expérience aléatoi- 
re €, on appelle probabilité sur 2, toute application P de 7 dans R, qui 
vérifie les axiomes suivants : 


(1) P(Q) = 1 

C)VAET VBET ANB=S—> P(AUB)= P(A) + P(B) 

(3) Pour toute suite (A,),-N d'événements deux à deux incompatibles, 

[ee] 

on à "| U s) L ve P(An) (cf. chapitre 6 pour la définition d’une 
neN n=0 

série numérique). 

On appelle alors espace probabilisé (associé à €) le triplet (Q,7T,P). 


Si Q est fini, l'axiome (3) est inutile. Et comme on a alors T = P(E), l'espace 
probabilisé peut se noter (Q, P). 
Propriétés 
P(A) = 1 — P(A) O< P(A)<1 
P(S) =0 ACB—> P(A)< P(B) 
À et B étant des événements quelconques, on a : 


P(AU B) = P(A)+ P(B)— P(ANB). 
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Système complet d'événements 


Si A1,...,A, forment un système complet d'événements, on a : 


S_P(A) 2 À; 
i=]l 


Dans le cas infini, si (Ay)neN est un système complet d'événements, 
on a : 


SPA) —:}; 
n=0 


3.3 CONSTRUCTION D'UNE PROBABILITÉ SUR UN UNIVERS FINI 


Cas général 


Soit Q = {w,,...,w,} un univers fini. Notons À; l’événement élémen- 
taire A; = {w;}. 


Théorème. Toute probabilité P sur 2 est entièrement déterminée par 
la donnée des n nombres réels p; = P(A;) vérifiant les seules condi- 
tions : 


Ve #7 CCOND 
il 


Probabilité uniforme sur Q fini 


Dans toutes les situations où aucun événement élémentaire ne doit être 
distingué des autres, on suppose que tous les événements élémentaires 
sont équiprobables. 

Sur un univers fini (2, l'hypothèse d’équiprobabilité définit une proba- 
bilité P unique, dite probabilité uniforme sur @, donnée par : 

card À 

card @ 

card À (cardinal de À, nombre d’éléments de A) est souvent appelé nom- 
bre de cas favorables (sous-entendu à la réalisation de A) et card S2 nom- 
bre de cas possibles. 

Dans ce cas, le calcul de P(A) se ramène à des problèmes de dénom- 
brement. 


VAEP(R)  P(A)= 
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3.4 RAPPELS ET COMPLÉMENTS D'ANALYSE COMBINATOIRE 


Indications générales 


a) Questions à se poser 


Pour dénombrer des situations, il est commode de se poser les ques- 
tions : 


> quel est le nombre ñn d’objets de référence ? 
»> quel est le nombre p d’objets concernés par une situation ? 


> les p objets sont-ils considérés sans ordre (en vrac ; tirage simultané) 
ou avec ordre (c’est-à-dire que la situation est différente si les mêmes 
p objets sont classés de façon différente) ? 


> les répétitions sont-elles impossibles (les p objets sont tous 
distincts ; tirage sans remise) ou possibles (tirage avec remise) ? 


b) Opérations à effectuer 


Quand une situation comporte plusieurs choix : 
on effectue un produit quand on doit faire un choix, puis un autre … 
on effectue une somme quand on considère un cas ou bien un autre … 


Ne cherchez pas à toujours placer une formule toute faite. Et n'hésitez pas, par 
exemple, à utiliser un arbre, mais uniquement quand l'ordre compte car un arbre de 
choix comporte un ordre dans sa structure. 


Situations sans répétition 


a) Avec ordre 


Dans un ensemble à n éléments, il s’agit de choisir p éléments tous dis- 
tincts (ce qui nécessite p < n) et avec ordre. Une telle situation est un 
arrangement de n éléments pris p à p. Leur nombre (qu’on peut noter 


A) est : 


n! 
ARE Meuse 
Gi — p)! 
Dans le cas particulier où p = n, on dit qu’il s’agit d’une permutation 
d’un ensemble à n éléments ;ilyenan!. 
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b) Sans ordre 


Dans un ensemble à n éléments, il s’agit de choisir une partie à p élé- 
ments (ce qui nécessite p < n). Leur nombre est le nombre de combi- 


naisons de n éléments pris p à p (ancienne notation C}). La notation 
actuelle est : 


Propriétés 


Situations avec répétition 


a) Avec ordre (arrangements avec répétition) 


Dans un ensemble à 7 éléments, il s’agit de choisir p éléments rangés 
(avec la possibilité de choisir plusieurs fois le même). Il y a 7? possibi- 
lités. 

b) Sans ordre (combinaisons avec répétition) 


Dans un ensemble à n éléments, il s’agit de choisir p éléments sans ordre 
(avec la possibilité de choisir plusieurs fois le même). 


— 1 ne ie 
4 gs : ) est le nombre de combinaisons avec répétition. 


Il est aussi noté : K}. 


c) Permutations avec répétition 


Soit un ensemble à 7 éléments comportant : 

n1 éléments d’un premier type, indiscernables entre eux, 

n2 éléments d’un deuxième type, indiscernables entre eux. 

n4 éléments d’un g-ième type, indiscernables entre eux. 

Une permutation avec répétition de ces n éléments est une disposition 


n! 


ordonnée de ces éléments. Il y en a ———— . 
niln!...n! 
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# Tableau récapitulatif des formules de dénombrement 


sans répétition 


avec répétition 


avec ordre AF np 
sans ordre (?) (nr) 
p p 


KA MOTS-CLÉS 


Expérience aléatoire 
Événement 
Probabilité 


Dénombrement 


EXERCICES 


3-1 Dans un groupe de 100 personnes, on en a dénombré 45 blondes, 
40 dont les yeux sont bleus, et 25 qui sont blondes aux yeux bleus. 
On choisit au hasard une personne dans ce groupe. Quelle est la proba- 
bilité pour que la personne désignée possède au moins un des deux 
caractères : cheveux blonds ou yeux bleus ? 


3-2 Dans une population, 45 % des individus sont vaccinés contre la 
fièvre jaune, 60 % sont vaccinés contre la diphtérie, et 30 % sont 
vaccinés contre les deux maladies. Quelle est la probabilité, pour un 
individu choisi au hasard, de n’être vacciné contre aucune de ces deux 
maladies ? 


3-3 Quelle est la probabilité pour que, dans un groupe de n personnes 
choisies au hasard, deux personnes au moins aient la même date d’anni- 
versaire (on considérera que l’année a 365 jours tous équiprobables) ? 


3-4 Un groupe composé de 80 hommes et de 60 femmes doit désigner 
10 de ses membres pour être de garde ce soir. Si la désignation se fait au 
hasard, quelle est la probabilité pour que le groupe de garde 

a) ne comporte que des hommes ? 

b) ne comporte que des femmes ? 

c) comporte un nombre égal d'hommes et de femmes ? 
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3-5 Une étagère contient 25 livres appartenant à 3 collections différen- 
tes, une de 10, une de 8, une de 7 livres. Vus de loin, les ouvrages d’une 
même collection sont indiscernables. Quel est le nombre d’aspects dif- 
férents que peut prendre l’étagère vue de loin ? 


3-6 18 personnes se sont présentées à une collecte de sang. Parmi cel- 
les-ci, on a noté : 

11 personnes du groupe O ; 

4 personnes du groupe À ; 

2 personnes du groupe B ; 

1 personne du groupe À B. 

À l'issue de la collecte, on prélève au hasard 3 flacons parmi les 18 fla- 
cons obtenus. Calculez la probabilité des événements suivants : 

a) les sangs des 3 flacons appartiennent au même groupe ; 

b) parmi les 3 flacons prélevés, il y a au moins 1 flacon contenant du 
sang de groupe À ; 

c) les sangs des 3 flacons appartiennent à 3 groupes différents. 


3-7 On extrait 8 cartes d’un jeu de 52 cartes bien battues. Quelle est la 
probabilité pour que : 

a) 4 cartes soient des as ? 

b) 4 cartes soient des as et 2 cartes soient des rois ? 

c) l’on ait 3 cartes d’une même couleur et 3 cartes d’une autre couleur 
(un jeu de 52 cartes comporte 4 couleurs : trèfle, carreau, cœur, pique) ? 
d) au moins une carte soit un as ? 


SOLUTIONS 


3-1 Désignons par À l’événement « la personne choisie est blonde » et 
par B l’événement « la personne choisie a les yeux bleus ». Le tirage 
ayant lieu au hasard, on a : 


P(A)=0,45 ; P(B)=0,4 ; P(ANB)=— 0,25. 
D'où : P(AU B) = P(A)+ P(B)— P(AN B) = 0,6. 


3-2 Appelons F l’événement « l’individu est vacciné contre la fièvre 
jaune » et D l’événement « l’individu est vacciné contre la diphtérie ». 
Le tirage ayant lieu au hasard, on a : 


P(F)=0,45 ; P(D)=0,6 ; P(FND)=0,3, 


et on demande : 
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P(FND)=P(FUD)=1-P(FUD) 
= 1—[P(F) + P(D) — P(FND)] 
= 0,25. 


3-3 


Le mot au moins, doit vous faire penser à l'événement contraire A. 


Le nombre de cas possibles est 365” (arrangements avec répétitions), et 
le nombre de cas favorables pour À est A%,. (arrangements d’ordre n). 
Tous les cas sont équiprobables. On a donc : 


P(A)=1 Aie =. 365 x 364 x... x (365 — (n — 1)) 
3657 365 x 365 x -.. x 365 


Il 2 n—1 

— | 1 1 [1 — 
365 365 365 
Pour n = 23,on obtient P(A) & 0, 5073, ce qui signifie que dans un groupe de 
23 personnes (et a fortiori s'il y en a plus), il y a plus d'une chance sur deux 
pour qu'au moins deux personnes aient la même date anniversaire. Comme, 
en plus, les jours ne sont pas tout à fait équiprobables, la probabilité réelle est 
encore un peu plus élevée. 


3-4 Une équipe de garde étant constituée de 10 personnes prises parmi 
140, sans ordre et sans répétition, il y a : 


140 x 1 MAT 
E) Fe 0x139x:::x 13 & 5,736 58 x 10!* cas possibles. 


1xX2%x:..x 10 


a)lya ce) équipes constituées par 10 hommes. D’où : 


80 
e 0,002 87 
un 7) CIS 
10 
60 TT LE 7 
b)Ilya 10 | Squipes constituées par 10 femmes. D’où : 
(0) 
10 
P2 = & 0,000 13. 


(o) 
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c) Pour constituer une équipe de garde comportant autant d’hommes que 
de femmes, il faut choisir 5 hommes et 5 femmes. D’où : 


80), [60 
: SL x 0,228 87 
No Fo UC 0 
10 


3-5 Il s’agit de permutations avec répétitions avec n = 25, n1 = 10, 
n2 = 8,n3 = 7. Il y a donc: 
25! 


101817 — 21 034 470 600 situations qui apparaissent différentes. 


3-6 Les trois flacons étant distincts et non ordonnés, il y a ( . ) = 816 


prélèvements possibles ; 
a) Les sangs des trois flacons appartiennent au même groupe s’ils sont : 


ou bien du groupe ©, soit ( ;. ) — 165 façons, 


ou bien du groupe À, soit (5) — 4 façons. 


La probabilité de l’événement E\est donc : 
165 + 4 
816 


b) L'événement E2 « au moins un flacon du groupe A » peut se décom- 
poser comme réunion des événements incompatibles : « exactement un 
flacon du groupe À », « exactement deux flacons du groupe À », « exac- 
tement trois flacons du groupe À », ce qui donne : 


4 14 4 14 4 
HOMO 
P(E2) = (5: > & 0,554. 

) 


Mais on peut aller plus vite en considérant l’événement contraire E2 
« aucun flacon n’est du groupe À ». 


14 
3 __ 364 452 


P(Er)= <= d’où: P(E2) = 1 — P(E2) = Es 


18\ 816 
3 


P(Ei) = & 0,207. 
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c) L'événement E3 « les sangs des 3 flacons appartiennent à 3 groupes 
différents » peut se décomposer comme réunion d'événements deux à 
deux incompatibles : 


— les groupes sont {O,A,B}, ce qui correspond à 11 x 4 x 2 = 88 
prélèvements ; 


— les groupes sont {O,A,AB}, ce qui correspond à 11 x 4 x 1 = 44 
prélèvements ; 


— les groupes sont {O,B,AB}, ce qui correspond à 11 x 2 x 1 = 22 
prélèvements ; 


— les groupes sont {A,B,AB}, ce qui correspond à 4x2 x 1=8 
prélèvements. 


On obtient donc : 
88+44+22+8 = 162 
816 7” 816 


3-7 Les 8 cartes étant distinctes et non ordonnées, il y a 


P(E;3) = & 0,199. 


) = 752 538 150 tirages possibles. 


a) Pour obtenir un tirage comportant 4 as, il faut choisir 4 as (1 possibi- 


48 


lité) et 4 autres cartes, de ( 4 


) — 194 580 façons. 


La probabilité de E1 est donc : P(E:1) = Rene 232,6 x 10 * 
a probaDinte € 1 ES ONC : 12 752538 150 ,0 X = 


b) Pour réaliser l'événement E>, il faut choisir 4 as (1 possibilité) et 2 


… — 946 façons. 


rois de o — 6 façons, et 2 autres cartes de ( 2 


D'où : 
1 x 6 x 946 


P(E2) = == & 7,5 x 107. 
ED = 753 538 150 . 


c) Pour réaliser l’événement E3, il faut choisir les 2 couleurs concer- 


nées de ) = 6 façons, puis les 3 cartes de la première couleur choi- 
sie de ( ) = 286 façons, puis 3 cartes de la deuxième couleur choi- 


sie de ( .) — 286 façons. 
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6 x 286 x 286 x 325 
Don PR) 
752 538 150 
c) L'événement Æ4 peut se décomposer en : un as, ou deux as, ou trois 


as, où quatre as. 


Mais on peut aller plus vite en considérant l’événement contraire E4 


48 
( 8 ) __ 377 348 994 
(5) 7 752538 150 
8 
375 189 156 


d’où : P(E4) = 1 — P(Es) = == à 0,4986. 
RARE) ED = 755538 150 0786 


« aucun as » : P(E4) = 
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CHAPITRE 


Probabilité conditionnelle 

4.2 Utilisation des probabilités conditionnelles lors d’un test diagnostique 
43 Événements indépendants 

44 Formule de Bayes 


4.5 Expériences aléatoires successives 


> Étudier la modification de probabilité entraînée par une information 


> Formaliser la notion d'indépendance entre deux événements, deux 
expériences aléatoires 


> Calculer la probabilité de diverses hypothèses quand un événement 
vient d'avoir lieu 


4.1 PROBABILITÉ CONDITIONNELLE 


Définition 

Soit ((2,7,P) un espace probabilisé et À un événement tel que 
P(A) & 0. 

Pour un événement quelconque B, on appelle probabilité conditionnelle 
de B sachant que À est réalisé, le nombre : 

P(ANB) 


P(B|A) = A 


Utilisation 


Il est courant de connaître directement P(B /A). On utilise alors la rela- 
tion sous la forme, appelée formule des probabilités composées : 


P(AN B) = P(A) x P(B|A). 
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Généralisation 


La formule des probabilités composées se généralise au cas de n événe- 
ments (n > 2). 

Par exemple, pour trois événements A,B,C tels que P(A) Æ 0 et 
P(AN B) + 0, on peut écrire : 


P(ANBNC)= P(A) x P(B]IA) x P(CIAN B). 


4.2 UTILISATION DES PROBABILITÉS CONDITIONNELLES 
LORS D'UN TEST DIAGNOSTIQUE 


Recueil des données 


On recrute des sujets soumis à une évaluation permettant de savoir s’ils 
ont la maladie étudiée (M) ou non (M). 

On leur applique un test qui donne un résultat positif (+) ou négatif (—). 
Les notions qui suivent sont inchangées s’il s’agit d’un symptôme pré- 
sent (+) ou absent (—). 

On regroupe les effectifs observés selon le tableau : 


M M 

La n 112] 

à "m3 Na 
n 


°Ily an: individus vrais positifs qui sont déclarés positifs alors qu’ils sont 
malades. 

°Il y a n2 individus faux positifs qui sont déclarés positifs alors qu’ils ne 
sont pas malades. 

°Ily a 73 individus faux négatifs qui sont déclarés négatifs alors qu’ils sont 
malades. 

° Il y a n4 individus vrais négatifs qui sont déclarés négatifs alors qu’ils ne 
sont pas malades. 


Évaluation du test diagnostique (population connue) 


° La sensibilité du test est la probabilité qu’un sujet soit positif au test 
sachant qu’il est malade : 


ni 


Se = P(+IM) = é 
(+IM) ET 
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° La spécificité du test est la probabilité qu’un sujet soit négatif au test 
sachant qu’il n’est pas malade : 


na 


S, = P(—-|M) = : 
| GE M +4 


Utilisation du test diagnostique (population inconnue) 


° La valeur prédictive positive est la probabilité qu’un sujet soit réelle- 
ment malade sachant qu’il est positif au test : 

VPP=P(M|+). 
En désignant par x = P(M) la prévalence de la maladie, on à : 


es XxS, 
_ xS+(-x)l=Ss,) 


VRP. 


° La valeur prédictive négative est la probabilité qu’un sujet ne soit pas 
malade sachant qu’il est négatif au test : 


VPN =P(M|-). 
En désignant par x = P(M) la prévalence de la maladie, on a : 


(—x)S, 


VPN = 
Alu 


* Le rapport de vraisemblance positif est le rapport entre la probabili- 
té d’avoir un test positif lorsque l’individu est malade et la probabilité 
d’avoir un test positif lorsque l'individu n’est pas malade. 
… PŒHIM) _ Se 
PM) 1-5 


Il quantifie l’apport d’un test positif. 


° Le rapport de vraisemblance négatif est le rapport entre la probabi- 
lité d’avoir un test négatif lorsque l’individu est malade et la probabilité 
d’avoir un test négatif lorsque l’individu n’est pas malade. 


P(-IM) _ 1e 


RVN = — = 
PEM) Sp 


Il quantifie l’apport d’un test négatif. 
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4.3 ÉVÉNEMENTS INDÉPENDANTS 
Définition 


Dans un espace probabilisé (42,7, P), deux événements À et B sont dits 
indépendants si, et seulement si : 


P(ANB)= P(A) x P(B). 


Ne confondez pas événements indépendants (la réalisation de l'un ne modifie pas 
la probabilité de l'autre) et événements incompatibles (la réalisation de l'un empé- 
che la réalisation de l'autre). 


Propriétés 


A et B étant deux événements d’un espace probabilisé (62,7 ,P), on a: 
A et B indépendants <— À et B indépendants 

<= À et B indépendants 

<= À et B indépendants 


Généralisation 


Trois événements A,B,C sont indépendants dans leur ensemble, s’ils 
sont indépendants deux à deux, soit : P(AN B) = P(A) x P(B) 
P(BNC)= P(B) x P(C);,P(CNA) = P(C) x P(A) 

et si de plus : P(AN BNC) = P(A) x P(B) x P(C). 


4.4 FORMULE DE BAYES 


Formule des probabilités totales 


Soit E1,...,E, un système complet d'événements. Pour tout événement 
A,ona: 


P(A) = » ,P(Ei) x P(AÏE:;), 


n 
i=] 
c’est-à-dire : 


P(A) = P(Ei) x P(AÏE:) +: + P(En) x P(AIE»). 
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Formule de Bayes 


a) Cas général 


E1,...,E, étant un système complet d'événements et À un événement 
tel que P(A) 0, on a: 


P(E;) x P(AIE;) 


Vje{l...,n} P(E;|A)= 


n 


D P(E:;) x P(AIE;) 


i=1 
b) Cas particulier le plus utilisé 


Comme E\,E1 forment un système complet d'événements, on obtient : 


P(E:) x P(AÏE:) 


P(Ei|A) — — — 
P(E;) x P(AÏE:;) + P(E;) x P(AÏE:) 
PE |A) = P(E:) x P(AIE:) _ 
P(E:) x P(AÏE:;) + P(E:) x P(AÏE:) 
c) Visualisations 


L'usage de la formule de Bayes peut être facilité par des représentations 
graphiques comme un arbre, ou un tableau d’effectifs après avoir assi- 
milé probabilités et fréquences grâce à la loi des grands nombres. 


4.5 EXPÉRIENCES ALÉATOIRES SUCCESSIVES 


Expériences indépendantes 


Des expériences aléatoires sont dites indépendantes si le résultat de l’une 
n’influence pas le résultat de l’autre. 

Lors de la réalisation d’expériences aléatoires successives €1,...,€», un 
événement du type « réaliser l’événement A, lors de £1 et À) lors de £2 
… et À, lors de €, » peut se coder A; 42... A, ou A; X A2 X +: x À, 
Si on a défini les probabilités P(A1), P(A2), ..… , P(A;), et si les expé- 
riences £1,...,€, sont indépendantes, on définit la probabilité de 
A1A2...A, en posant : 


Ptdids Aie P(AD x. "+ P(A,). 
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Loi des grands nombres 


Supposons que r expériences aléatoires successives, indépendantes, 
soient décrites par le même espace probabilisé. 

On démontre alors que la fréquence d’apparition d’un événement A 
« tend » vers sa probabilité lorsque n tend vers l’infini. 

De ce fait, pour une population de grande taille, un expérimentaliste assi- 
mile souvent probabilité et fréquence. 


P Risque relatif 


Considérons une personne tirée au hasard dans une population et 

notons : 

M l'événement « il présente la maladie M » (exemple, un cancer du 

poumon) 

C l'événement « il présente le critère C » (exemple, il fume plus de 
:) 

Le risque relatif d’être atteint de M pour ceux qui présentent le critè- 

re C par rapport à ceux qui ne le présente pas, est : 


P(MIC) 
P(M|C) 
Si ce quotient vaut 4 dans l’exemple, cela signifie que ceux qui 


fument plus de .… ont 4 fois plus de risque d’avoir un cancer du pou- 
mon que les autres. 


æ MOTS-CLÉS 


> Probabilité conditionnelle 
> Indépendance 
»> Formule de Bayes 
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EXERCICES 


4-1 Dans une certaine population, il y a 45 % de fumeurs et 35 % de per- 
sonnes atteintes de bronchite. 

Sachant que parmi les fumeurs il y a 65 % de bronchiteux, calculez la 
probabilité pour qu’une personne atteinte de bronchite soit fumeur. 


4-2 Dans un espace probabilisé (2,7 ,P), on considère deux événe- 
ments À et B tels que : P(A) = 0,5; P(B) =0,3; P(AU B) = 0,65. 
Les événements À et B sont-ils indépendants ? 


4-3 Un laboratoire a mis au point un alcootest. On sait que 2 % des per- 
sonnes contrôlées par la police sont réellement en état d’ébriété. 
Les premiers essais ont conduit aux résultats suivants : 


— lorsqu'une personne est réellement en état d’ébriété, 95 fois sur 100 
l’alcootest se révèle positif ; 

— lorsqu'une personne n’est pas en état d’ébriété, 96 fois sur 100 l’al- 
cootest se révèle négatif. 


Quelle est la probabilité pour qu’une personne soit réellement en état 
d’ébriété lorsque l’alcootest est positif ? 


4-4 a) Combien y a-t-il de dominos dans un jeu de dominos ? Combien 
de paires ? 

b) On tire, au hasard et sans remise, successivement deux dominos. 
Quelle est la probabilité de l’événement À : « ils peuvent être juxtapo- 
sés », c’est-à-dire qu’ils ont un numéro commun ? 


4-5 On contrôle séparément les trois dimensions d’un pavé. Les proba- 
bilités de rejet sont : p1 — 0,06 pour la longueur, p2 = 0,04 pour la lar- 
geur, p3 = 0,08 pour la hauteur. La pièce est refusée dès qu’une de ses 
dimensions ne respecte pas les normes. 

Quelle est la probabilité pour qu’une pièce soit refusée au contrôle? 


4-6 a) On propose un questionnaire comprenant 10 questions qui com- 
portent chacune deux réponses possibles, l’une vraie, l’autre fausse. 
Pour tester si la personne interrogée essaie de deviner au hasard (c’est- 
à-dire que, pour toutes les questions, elle fait un tirage équiprobable sur 
les réponses possibles), on adopte la règle de décision suivante : 


— si 7 réponses, ou plus, sont bonnes, on admet que la personne inter- 
rogée n’a pas essayé de deviner au hasard ; 


— sinon, on admet la conclusion contraire. 
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Quelle est la probabilité de rejeter l'hypothèse « la personne interrogée 
a essayé de deviner au hasard les réponses » quand celle-ci est vraie? 


b) Que devient cette probabilité lorsque chacune des questions posées 
comporte 3 réponses dont une seule est vraie ? 


4-7 Dans une population (2, deux maladies M1 et M2 sont présentes 
respectivement chez 10 % et 20 % des individus (le nombre de ceux qui 
souffrent des deux maladies est négligeable). 

On entreprend un dépistage systématique des maladies M; et M2. Pour 
cela, on applique un test qui réagit à la maladie sur 90 % des malades de 
Mi, sur 70 % des malades de M, et sur 10 % des individus qui n’ont 
aucune de ces deux affections. 


a) Quand on choisit au hasard un individu w de 2, quelle est la probabi- 
lité pour que le test réagisse ? 


b) Sachant que pour cet individu w le test a réagi, donnez les probabili- 
tés pour que ce soit à cause de la maladie M1, à cause de la maladie Mo, 
sans que w ait l’une des deux maladies. 


c) On hospitalise les gens dont le test est positif, pour examens divers et 
éventuellement traitement. En moyenne le coût pour un malade de M: 
est de 1 500 €, pour un malade de M, il est de 1 000 €, et pour un non 
malade il est de 400 €. 

Donnez la moyenne de ce coût sur l’ensemble des individus ayant un test 
positif. 

Si on répartit le coût uniformément sur l’ensemble de la population 2, 
combien devra payer chaque individu de 2 ? 


4-8 Un scanner peut être utilisé pour détecter des lésions des artères 
coronaires. Le résultat du scanner est soit « artères coronaires norma- 
les », soit « artères coronaires anormales ». 

La sensibilité du scanner est de 95 %, tandis que sa spécificité est de 
85 %. 


a) Calculez la probabilité que le résultat du scanner soit « anormal » si 
les artères sont saines. 


b) On applique ce test à une population à risque moyen où la prévalen- 


ce de la maladie est de 30 %. Déterminez la valeur prédictive positive et 
la valeur prédictive négative et du scanner. 


> 
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SOLUTIONS 


4-1 Considérons l’espace probabilisé associé au tirage au hasard d’une 
personne dans la population. Notons les événements : 


F : «c’est un fumeur » ; B : «c’est un bronchiteux » 


En assimilant fréquences et probabilités avec la loi des grands nombres, 
les hypothèses s’écrivent : 
P(F) =0,45; P(B) =0,35; P(B|F) = 0,65. 


Et on demande : 
- P(FNB) . P(F) P(B]|F) D 0,45 x 0,65 


P(F|B - _ 
CE P(B) P(B) 0,35 
0,2925 

= — = 0,8357 

0,35 


Pour les rebelles à l'écriture mathématique, l'assimilation entre fréquences et pro- 
babilités permet une version plus visuelle. Prenons une population de référence 
nombreuse, par exemple 10 000 personnes. Il y a donc 4500 fumeurs et 3500 bron- 
chiteux. Parmi les 4500 fumeurs il y en à 65 % qui sont bronchiteux, soit 2925. Il est 
alors facile de compléter le tableau : 


B B 


F 2925 | 1575 | 4500 


F 575 | 4925 | 5500 


3500 | 6500 | 10 000 


pour en déduire qu'il y a 2925 fumeurs parmi les 3500 bronchiteux, ce qui conduit 
au résultat déjà obtenu. 


4-2 On a toujours : P(AU B) = P(A) + P(B) — P(ANB) ce qui 
conduit ici à: P(AN B) = 0,15. 
Comme, d’autre part, P(A) x P(B) = 0,15, les événements À et B 


sont indépendants en probabilité. 


4-3 + Appelons E l’événement « la personne contrôlée est en état 
d’ébriété » et À « l’alcootest est positif ». 
Les indications fournies peuvent s’écrire : 


P(E) = 0,02 ; P(AJE) = 0,95 ; P(AIE) = 0,96 
et on demande : P(E/A). 
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D’après la formule de Bayes, on a : 
P(E) P(A|E 
P(EIA) = CE) P( lE) - 

PE) P(AlE)<+-P(EJP(A|E) 
: 0,02 x 0,95 
0,02 x 0,95 +0,98 x 0,04 
… 0,0190 
"00582 
Avec un alcootest pourtant efficace, la faible valeur obtenue provient de la 
faible valeur de P(E).En médecine, un problème analogue correspondrait à la 


difficulté de diagnostic d'une maladie peu fréquente à partir d'un seul symp- 
tome. 


& 0,3265 


* L'utilisation de la formule de Bayes peut se visualiser par l’arbre sui- 
vant : 


A P(ENA)= P(E).P(AIE)= 0,02 x 0,95 


0,95 
E 
0,02 0,05 
i A P(ENA)= P(E).P(AIE)= 0,02 x 0,05 
: 0,04 A P(ENA)= P(E).P(AIE) = 0,98 x 0,04 
0,98 . 
"E 
0,96 


A  P(ENA)= P(E).P(AIË)= 0,98 x 0,96 


Figure 4-1 


* L’assimilation entre fréquences et probabilités sur une population 
nombreuse permet une version accessible aux non-matheux : 


A A 
E 190 10 200 
E 392 9408 | 9800 
582 9418 | 10 000 


La probabilité conditionnelle demandée P(E]|A) est donnée par la fré- 
190 


diti Île : — 
quence conditionnelle 582 
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4-4 a) Il y a autant de dominos formant une paire que de nombres de 0 
à 6, soit 7 paires. 


Les autres dominos sont du type {i, j} avec i Æ j.Ilyena (2) = 21. 


Il y a donc en tout 28 dominos dans un jeu de dominos. 


On peut aussi dire qu'un domino est un choix de 2 chiffres parmi 7, sans ordre 
et avec répétition possible. La formule qui donne le nombre de combinaisons 


s. — 1 8 k | 
avec répétition ( F É ) = (5) (cf. chap. 3 ) donne le même résultat. 


b) Considérons les événements Æ;1 et E2 (formant un système complet 
d’événements) : 

E1 : « le premier domino tiré est une paire », 

E : « le premier domino tiré n’est pas une paire ». 


g 1 3 6 2 
OnaPEN=S = P)="-PABIeS=.: 


8 4 27 0 
P(AIE») = 1274 
: 1 2, 3 4 7 
D'où: P(A)=-Xx —+- x — — & 0,3889. 


4 9 4 9 18 


4-5 Le plus simple est de chercher la probabilité de l’événement 
contraire. 

Pour que la pièce soit acceptée, il faut que sa longueur convienne (pro- 
babilité 1 — p1 = 0,94) et que sa largeur soit correcte (probabilité 
1 — p2 = 0,96) et que sa hauteur soit dans les normes (probabilité 
1 — p3 = 0,92). 

On peut supposer que les trois épreuves correspondant aux trois dimen- 
sions sont indépendantes. 

La pièce est donc acceptée avec la probabilité : 

0,94 x 0,96 x 0,92 = 0,830 208 = 0,83 

et refusée avec la probabilité : 0,169 792 & 0,17. 


4-6 1.Deux réponses possibles par question 

Supposons que la personne interrogée réponde toujours au hasard. Alors, 

pour chaque question, la probabilité de réponse juste est p = 0,5. 

Soit X le nombre de réponses justes dans ce cas. 

La probabilité de rejeter l'hypothèse « la personne interrogée a essayé de 

deviner au hasard les réponses » quand celle-ci est vraie, revient à la 

réalisation de l’événement X > 7 qui se décompose comme réunion des 

événements deux à deux incompatibles : 
X—=7:X=8;:X—=9;:X— 10. 
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On peut chercher la probabilité de ces événements. Mais cela revient à 
faire par anticipation le cours du chapitre 5 qui montre que X suit la loi 
binomiale B(10; 0,5). En utilisant ce résultat, on obtient directement : 
PC = 10) = (0,05 R0=0) = 1000510 

PIX =3)=#61057PX=7)=120 (0570 

D'où P(X > 7) = 176 (0,5)! & 0,172. 

2. Trois réponses possibles par question 


La seule modification par rapport à la question précédente est qu'ici 


1 
P = 3: Ceci conduit à : 


1\ 1 
P(X = 10) = G) & 0,000 017 


L\/2 
PIX =0) =101- = = 0,000 339 


3 
11772) 
PDA == (:) () & 0,003 048 


DATA 
PX=T = 120 (;) G) = 0,016 258 


P(X > 7) = 0,020. 


On observe que cette deuxième situation est beaucoup plus efficace que la 
première pour détecter les personnes qui répondent au hasard. 


4-7 Choisissons au hasard un individu w dans la population @ et 
notons : 

M; l'événement « w a la maladie M, » ; 

M, l'événement « w a la maladie M, » ; 

N l'événement « w n’a ni la maladie M, ni la maladie M ». 

De cette façon {M,,M:,N} constitue un système complet d'événements. 
D'autre part, désignons par À l’événement « le test réagit ». 

Les informations fournies peuvent s’écrire : 
P(Mi)=0,1;P(M)=0,2;P(N)=0,7; 

P(R|M:;) = 0,9 ; P(R|M)) = 0,7 ; P(RIN) =0,1; 

et se visualiser par l’arbre (figure 4.2). 

a) Probabilité de R 


D’après la formule des probabilités totales, on à : 
PCR) = P(M:) x P(RIM:) + P(M) x P(R|M:) 

+P(N) x P(RIN) =0,3 
La probabilité pour que le test réagisse est donc de 0,3. 
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R 0,1 x 0,9 = 0,09 


0,9 
M, 0,1 
01 RAR  0,1x0,1=0,01 
de 0,2x0,7=0,14 
0,2 
M 0,3 
R  0,2x0,3= 0,06 
0,7 
0,1 R 0,7 x 0,1 = 0,07 
de 0,9 
R 0,7 x 0,9 = 0,63 
Figure 4-2 


Sur l'arbre, cela revient à additionner les probabilités des chemins qui se ter- 
minent par À. 


b) Probabilités des hypothèses quand le test réagit 
P(MNR) : 0,09 : 


P(MiIR) = = = 
(MilR) PR 03 0,3 
ue PUETR O0 
RE D | NT 0 
P(NNR) 0,07 7 
P(NIR) = ( Le = 023 
P(R) 05 3 


Lorsque le test est positif, il y a donc une probabilité de 0,3 que ce soit 
à cause de M; environ 0,47 que ce soit à cause de M, environ 0,23 que 
w n'ait ni M;,ni M. 


Nous venons en fait d'appliquer la formule de Bayes. 


c) Coûts d’hospitalisation 

* Sur l’ensemble des individus ayant un test positif, on sera amené à 
dépenser : 
1 500 € avec une probabilité 0,3 ; 


7 
1 000 € avec une probabilité G : 
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fl 
400 € avec une probabilité A 


Le coût moyen sera donc : 


“ 7 
1 1 — +4 — —=101 
500 x 0,3 + 1 000 x TA ee 010 € 


* Sur l’ensemble de la population, on est amené à dépenser : 
1 500 € avec une probabilité 0,09 ; 
1 000 € avec une probabilité 0,14 ; 
400 € avec une probabilité 0,07. 
Le coût moyen sera donc : 


1 500 x 0,09 + 1 000 x 0,14 + 400 x 0,07 = 303 € 


4-8 a) Désignons par À l’événement « les artères sont anormales » et 
par + « le scanner déclare les artères anormales ». 

On connaît la sensibilité Se — P(+|A) = 0.95 et la spécificité 
Sp = P(—|A) = 0,85. 

On demande : P(+|A) = 1 — P(—|A) = 0,15. 


b) On sait que : 


VPN — (I —x)Sp ne 0,7 x 0,85 
nil So ET —-nSp 03005 0TKXUSS 
& 0,98. 
xSe 0,3 X 0,95 
xSe+(—x)(—S,) 0,3 x 0,95 +0,7 x 0,15 
# 0,73. 


Mais on peut faire un tableau d'effectifs avec un échantillon représenta- 
tif de la population : 


Lésions Absence de lésions Total 

Résultat « normal » 15 595 610 
Résultat « anormal » 285 105 390 
Total 300 700 1000 


595 285 


Z 
< 
= 
0. 


OBJECTIFS 


Variables aléatoires 
discrètes (cas fini) 


CHAPITRE 


5.1 Premières définitions 

5.2 Variables aléatoires indépendantes 

5.3 Opérations sur les variables aléatoires 

5.4 Paramètres d'une variable aléatoire 

5.5 Lois classiques 

> Comprendre une variable aléatoire quand les valeurs possibles sont en 
nombre fini 


> Définir l'espérance mathématique et la variance d'une variable aléatoire 
et des variables aléatoires obtenues par des opérations algébriques 


> Savoir reconnaître et utiliser les lois classiques du chapitre 


5.1 PREMIÈRES DÉFINITIONS 


Univers et probabilité images 


(S, P) étant un espace probabilisé fini, on appelle variable aléatoire 
toute application X de © dans R. 2, — X(Q2) s’appelle l’univers- 
image. 

On définit une probabilité-image en posant : 


Vae1  Pi({a}) = P({w € G; X(w) = a}). 


En fait on utilise des notations abrégées : 

({uw € Q ; X(w) — a}) se note X = a, 

({uw E Q ; X(w) < a}) se note X < a, 

({w € Q ; a < X(w) < b}) se note a < X < b, 
et on écrit P({w € Q; X(w) = a}) = P(X = a). 
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Distribution de probabilité 


Si X est une variable aléatoire dont l’univers-image {x1,...,x,} est pro- 
babilisé par la connaissance des nombres p; = P(X = x;), la distribu- 
tion de probabilité, ou loi de probabilité, de X est l’ensemble des cou- 
ples (x, pi). 


D. Ilest toujours utile de vérifier que l’on a bien p; + + - + + p, = 1. 


Fonction de répartition 


X étant une variable aléatoire, on appelle fonction de répartition associée 
à X, la fonction de R dans [0,1], notée F, et définie par : 


VreR F(x) = P(X < x). 


5.2 VARIABLES ALÉATOIRES INDÉPENDANTES 


Couple de variables aléatoires 


Soit X et Y deux variables aléatoires définies sur le même espace proba- 
bilisé fini (2, P) dont les univers-images sont respectivement : 


X(S) = {x1,...,%4} et Y(Q) = {y1,...,7r}. 
La loi du couple (X,Y) est définie par la donnée des nombres : 
pi = P(X=xetY =7y;) où 1<i<getl<j<r. 


il est commode de reporter ces nombres dans un tableau à double entrée. 


Lois marginales 


Si on a reporté les nombres p;; dans un tableau à double entrée, en addi- 
tionnant suivant les lignes et suivant les colonnes, on aboutit aux lois 
marginales de X et de Y définies par : 


è 
P(X = x) = pa = pi = pa + pate + Pir 
j=1 


q 
PO = y) = pe = pi = pi + Paj + + Pa 


i=1 
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Indépendance de deux variables aléatoires 


Les variables aléatoires X et Y sont dites indépendantes si, et seulement 
si, les événements (X = x;) et (Y — y;) sont indépendants pour à et j 
quelconques, c’est-à-dire : 


Vi Vi Dij = Pie X Pej 


5.3 OPÉRATIONS SUR LES VARIABLES ALÉATOIRES 


Addition ou produit par un nombre 


Soit X une variable aléatoire définie sur (Q, P) et a et À des réels. Les 
variables aléatoires X + a et ÀX sont définies sur 2 par : 


VoES _ KN+d)=xW ia x) =AX(W): 


Si {x1,...,Xx,} est l’univers-image de X, l’univers-image de X + a est : 
{x + 4a,...,x, + a} et celui de ÀX : {Ax1,...,Ax,}. 
Les probabilités-images sont définies par : 


P(X+a=x;+a)= P(X = x) = P(AX = Ai). 


Somme 


Soit X et Y deux variables aléatoires définies sur le même espace proba- 
bilisé fini (S2, P). La somme X + Y est la variable aléatoire définie sur 
S2 par : 


Vue (X + Y)(w) = X(w) + Y (w). 
L’univers-image de Z — X + Y est constitué par les réels zx du type 
zx = Xi + y;. Eton a P(Z = 23) = 7 la somme étant étendue à 
tous les couples (5, j) tels que zx = xi + y;. 

Produit 
Le produit XY est la variable aléatoire définie sur © par : 
Vue (XY)(w) = X (w) Y (w). 


L’univers-image de T — XY est constitué par les réels # du type 
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& = Xi yj. Eton a P(T = &) = > Pij, la somme étant étendue à tous 


les couples (5, j) tels que # = x; y;. 


5.4 PARAMÈTRES D'UNE VARIABLE ALÉATOIRE 
Espérance mathématique, variance, écart type 


Soit X une variable aléatoire définie sur © fini, dont la loi de probabili- 
té est (x1,p1),..., (tn; Pn) Où p; = P(X = xi). 


n 
> L’espérance mathématique de X est le réel : E(X) — > Pi Xi. 


> La variance de X est le réel : V(X) = nl pi [x — E(X)] 


> L'écart type de X est le réel o(X) = Y V(X). 


> Théorème de Koenigs 


V(X) = EG) - (E(X)) = (Dr x}) EL). 
1=] 


Covariance, corrélation 


Comme en statistiques, on définit : 


> la covariance de deux variables aléatoires X et Y : 
Cov (X,Y) = El (x — E(X)) (x — E(N)| = E(XY) — E(X)E(Y), 


E X,Y 
> le coefficient de corrélation de X et de Y : r — FORCE : 
o(X) o(Y) 


Théorèmes 


a) Dans le cas général 


On a : 

E(X +a)= E(X)+a; V(X + a) = V(X) 
E(XX) = XE(X) ; V(AX) = XV(X) 

E(X +Y)=E(X)+E(YT); 

VIT ET) = VU) VO) LAC Nr). 
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b) Dans le cas où X et Y sont indépendantes 
On a : Cov(X,FY)=0; V(X +Y) = X(X) + V(Y); 
E(XŸY) = E(X) E(?). 


Mais ces relations peuvent être vérifiées sans que X et Y soient indépen- 
dantes. 


Variable centrée réduite 


Si X est une variable aléatoire telle que E(X) = u et V(X) = o?, on 


appelle variable centrée réduite associée à X la variable aléatoire 
X —= 
ie 


o 
Elle vérifie E(Y) = 0 et V(Y) = 1. 


5.5 LOIS CLASSIQUES 
Loi discrète uniforme 
a) Loi de probabilité 
L’univers-image de X est (1 = {1,...,n} et les probabilités : 


1 
Vk e Q: P(X = k) = —-: 
n 


b) Paramètres 


n +l n2—1 
E(X) = ; : V(X) = : 


Loi binomiale 


a) Conditions du modèle 

On obtient une loi binomiale quand : 

>» on répète n fois la même expérience aléatoire, les n répétitions étant 
indépendantes entre elles ; 

> ons’intéresse seulement à la réalisation, ou non, d’un événement fixé 
A de probabilité p, et on pose g = 1—p; 

> on considère la variable aléatoire X égale au nombre de fois où 
l'événement À a été réalisé au cours des n épreuves. 
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Dans ces conditions, on dit que X suit la loi binomiale de paramètres n 
et p. Cette loi se note B(n,p). 


b) Loi de probabilité 

L’univers-image de X est 21 — {1,...,n} et les probabilités : 
PER D Clru 

c) Paramètres 


E(X)=np ; V(X) =npgq. 


P Loi hypergéométrique 


Une loi hypergéométrique dépend de trois paramètres entiers 
positifs : N, K < N et n < N. En notant / le plus petit des deux 
entiers K et n, l’univers-image est {0,...,/} et on a: 


(&) =) 

k n—k 

Vk e {0,...,1} P(X =k) = (") : 
n 


En langage imagé, on dispose d’une urne constituée de N boules dont 
K présentent un type À. On prélève n boules sans remise et on comp- 
te le nombre X de boules de type À obtenues. 

En fait la loi hypergéométrique est peu utilisée : on l’approxime par 
une loi binomiale dès que la taille N de la population est grande par 
rapport à la taille n de l'échantillon. Cela signifie qu’un tirage sans 
remise est alors assimilé à un tirage avec remise. 


K 
En posant p — N et g—=1—p, on obtient : E(X) =np et 


V(X) ST 
=ñ ou est 1e ractœur a EXNaustivite. 
= ren 


&æ MOTS-CLÉS 
> Variable aléatoire 


> Distribution de probabilité 


> Lois marginales 
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> Espérance mathématique 
> Variance 

> Loi uniforme 
> 


Loi binomiale 


EXERCICES 


5-1 Un clochard suit une route indéfiniment bordée d’arbres alignés, dis- 
tants les uns des autres de 10 mètres. Il décide, au cours de sa promena- 
de, de jouer au jeu suivant : 

Devant chaque arbre, il lance son unique pièce de monnaie. Si la pièce 
retombe sur pile, il continue dans la même direction. Si elle retombe sur 
face, il rebrousse chemin jusqu’à l’arbre voisin. 

Au bout de six déplacements, il s’endort au pied de l’arbre où il se 
trouve. 

On appelle X la distance arithmétique, en mètres, entre l’arbre devant 
lequel il commence son jeu et l’arbre d’arrivée. 

a) Déterminez la loi de probabilité de cette variable aléatoire sachant que 
la pièce n’est pas truquée. Quelle est la distance ayant la plus grande pro- 
babilité ? 

b) Calculez l’espérance mathématique et la variance de X. 


5-2 Neuf accidentés passent, un par un, un examen radiologique. Quatre 
ont une fracture au niveau des membres et cinq au niveau du bassin 
(aucun ne présente les deux types de fracture). L'ordre de passage est 
constitué au hasard. 

On appelle X la variable aléatoire « nombre d’accidentés des membres 
précédant le premier accidenté du bassin ». 

a) Déterminez la loi de probabilité de X. 

b) Calculez l’espérance mathématique et la variance de X. 


5-3 Dans une population très nombreuse, des études régulières ont mon- 
tré qu’il y avait 2 % d'individus de type A. 

Calculez la probabilité, dans un échantillon de 100 individus tirés au 
hasard, d’obtenir : 

a) aucun individu du type À ; 

b) au moins deux individus du type A. 
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5-4 Une machine à embouteiller peut tomber en panne. La probabilité 
d’une panne est de 0,01 à chaque emploi de la machine. La machine doit 
être utilisée 100 fois. 


a) Le nombre de pannes observées est une variable aléatoire X. Calculez 
les probabilités d'obtenir: X=0,X=1,X*=2,X —=3,X 24. 


b) On estime le coût d’une réparation à 500 €. La dépense, exprimée en 
euros, pour les réparations de la machine est une variable aléatoire Y. 
Calculez l’espérance mathématique de Y et son écart type. 


5-5 On doit organiser un congrès où chaque participant ne parle qu’une 
seule langue et où il y a n langues parlées. 


a) Si on veut traduire directement n’importe quelle langue dans n’im- 
porte quelle autre, de combien d’interprètes bilingues doit-on disposer? 


b) On prend alors le nombre minimum d’interprètes dans le cas particu- 
lier ñn = 5. 

1) Un congressiste s’adresse à un interprète choisi au hasard. Quelle 
probabilité y a-t-il que celui-ci comprenne sa langue ? 

2) Deux congressistes (de langues différentes) choisissent un inter- 
prète au hasard. Quelle probabilité y a-t-il que celui-ci puisse traduire 
leur conversation? qu’il comprenne au moins un congressiste ? 

3) Trois congressistes (de langues différentes) choisissent deux inter- 
prètes au hasard. Soit X le nombre de langues parlées par les deux inter- 
prètes, et parmi ces langues, soit Y le nombre de celles comprises par les 
congressistes. Donnez la loi de probabilité de X, de y. 


5-6 Un veilleur de nuit doit ouvrir 12 portes avec 12 clés différentes 
mais non discernables. 

a) Quelle est la probabilité pour qu’il ouvre la première porte au 
k-ième essai sachant qu’à chaque fois qu’il choisit une clé, il ne la remet 
pas dans le trousseau si elle ne convient pas. 

b) Le nombre total d’essais effectués définit une variable aléatoire X 
dont on demande de déterminer la distribution de probabilité, l’espéran- 
ce mathématique et l’écart type. 

Pour chaque porte, le processus recommence comme pour la première 
porte, mais avec seulement les clés restantes. 


5-7 En terminant d’effeuiller la marguerite, on compte : 

1 point pour un peu, 3 points pour beaucoup, 5 points pour passionné- 
ment, 10 points pour à la folie, O point pour pas du tout. 

On effeuille successivement deux marguerites. Soit X la variable aléa- 
toire égale au nombre de points obtenu avec la première marguerite. 
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Soit Y la variable aléatoire égale au plus grand des deux nombres obte- 
nus. 

a) Déterminez la loi du couple (X,Y). 

b) Précisez les lois marginales de X et de Y. Les variables aléatoires X 
et Y sont-elles indépendantes ? 

c) Déterminez la distribution de probabilité de Z = X + Y. 

d) Déterminez la distribution de probabilité de T = XY. 

e) Calculez E(X), V(X), E(Y), V(Y), E(X +Y), V(X +Y), 
E(XY), V(XY), Cov(X,Y),r. 


SOLUTIONS 


5-1 a) Les valeurs possibles pour X (l’univers-image) sont ; 
{0 ; 20 ; 40 ; 60}. 
> Pour aboutir à X = 0, il faut avoir obtenu 3 fois pile et 3 fois face. 


Chacun des événements élémentaires (6 lancers successifs de la 


1\6 
pièce) a pour probabilité 6) si la pièce est bien équilibrée. Et il y 


a (5) = 20 cas possibles. 
D'où: P(X—=0) = 2005) =0,3125. 


> Pour aboutir à X = 20, il faut avoir obtenu 4 fois pile et 2 fois face, 
ou bien 2 fois pile et 4 fois face. 


6 6 
D'où : P(X = 20) — (5) (G) + (5) G) = 30 (0,5)$ 


= 0,468 75. 


> Pour aboutir à X = 40, il faut avoir obtenu 5 fois pile et 1 fois face, 
ou bien 1 fois pile et 5 fois face. 


6 6 
D'où : P(X = 40) = (5) G) + (?) G) = 1205 


= 0,1875. 


> Pour aboutir à X = 60, il faut avoir obtenu 6 fois pile, ou bien 6 fois 
face. 
D'où : P(X = 60) = 2 (0,5)$ = 0,031 25. 


, Vérifiez que P(X = 0) + P(X = 20) + P(X = 40) + P(X = 60) = 1. 
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La distance la plus probable est 20 mètres. 


Autre solution possible en remarquant que le nombre Y de lancers donnant 


é 
pile suit la loi B(6; :l et que X = |10Y — 10(6 — Y)| = |20Y — 60]. 


b) E(X) = (0,5)5(600 + 480 + 120) = 18,75 
E(X2) = (0,5)f(12 000 + 19 200 + 7 200) = 600 
V(X) = 600 — (18,75)? — 248,4375. 


l'est possible d'obtenir ces résultats avec votre calculatrice, en statistique à une 
€” dimension en rentrant les valeurs et les effectifs associés 
(0; 20), (20; 30), (40; 12), (60; 2). 


5-2 a) Les valeurs possibles pour X sont : {0; 1; 2; 3; 4). 


> L'événement (X = 0) s’écrit aussi « le premier accidenté a une frac- 


ture du bassin ». On a : 
5 70 
P(X =0) = == — &0,5556. 
( 9 126 
> L'événement (X = 1) signifie « le premier accidenté a une fracture 


des membres et le deuxième une fracture du bassin ». 
Ona:P(X=1 RE & 0,2778 
He cpauo ss. 
> L'événement (X = 2) correspond à un ordre de passage qui com- 
mence par M M B. En utilisant à nouveau les probabilités condition- 
nelles, on a : 


D 
P(X = 2) — — = & 0,1190. 
( et TT 


> L'événement (X = 3) correspond à un ordre de passage commen- 
çant par MM MB. On à: 
Fee ee ee . & 0,0397. 
9 8 7 6 126 
> L'événement (X = 4) correspond à un ordre de passage commen- 
çant par MM M MB. On a: 
49,3 2%, 1 


1 
( ) Hi nl T7 0,0079 


Les réductions au même dénominateur 126 ont été faites pour vérifier facile- 
ment que la somme des probabilités élémentaires est bien égale à 1. 


/ 
€ 
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HE 0 +1 x Ha 


— = R 7 
126 126 be 
70 35 156 26 
E(X?) = 0? + 12 PP een he 
CE Le * 126 126 21 Fe 
10 072) 50 
V(X) = = 2 & 0,794 
=; () 63 


5-3 Soit X le nombre d’individus du type À figurant dans l’échantillon. 
Chacun des ñn = 100 individus a la probabilité p = 0,02 d’être du type 
À. Et les tirages des individus peuvent être considérés comme indépen- 
dants car la population est très nombreuse. 

Dans ce cas, X suit la loi binomiale (100; 0,02). 


Le tirage réel des 100 individus est sans remise.Il a été assimilé à un tirage avec remi- 
se à cause de l'hypothèse « population nombreuse ». Cela revient à remplacer une 
loi hypergéométrique par une loi binomiale car l'effectif total N est grand. 


a) P(X = 0) = (0,98) 0 & 0,1326. 
b) P(X>2)=1-[P(X=0)+P(X=1)] 
= 1 — (0,98)!00 _ 100 x 0,02 x (0,98)? % 0,5967. 


5-4 a) À chacune des n — 100 utilisations de la machine, la probabilité 
de panne est toujours égale à p = 0,01. 
En supposant de plus que les pannes sont indépendantes entre elles, le 
nombre total de pannes X suit la loi binomiale B(100; 0,01). 
Dans la réalité industrielle, les hypothèses de l’invariance de la probabilité de 
panne et de l'indépendance entre les pannes ne sont pas toujours réalisées. Il 


vous reste alors à étudier les modèles de la fiabilité, ce qui correspond à une 
orientation différente de celles de ce livre. 


P(X = 0) = (0,99)! + 0,366 
P(X = 1) = 100 x 0,01 x (0,99)® & 0,370 
100 x 99 
PIX =2)= ee — x (0,012 x (0,99)8 + 0,185 


100 x 99 x 98 
P(X =3)= — x (0,01)? x (0,99)°7 & 0,061 
P(X>4)=1-—[P(X=0)+P(X=1) 
+P(X =2) + P(X =3)]# 0,018. 
b) Le coût de chaque réparation étant de 500 €, on a : Y = 500%. 
CommeX suit la loi binomiale B(100; 0,01), on sait que : 
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E(X) = 100 x 0,01 = 1 et V(X) = 100 x 0,01 x 0,99 — 0,99 
D'où : 
E(Y) = 500 E(X) = 500 € et o(Y) = 500 o(X) = 497,5 €. 


5-5 a) Choisir un interprète bilingue, c’est choisir 2 langues parmi les # 
langues parlées. 
n 


Il est donc nécessaire de disposer de o 


) n(n—1). 

= ————— interprètes 
2 

bilingues. 


b) Dans le cas n = 5, on dispose alors de o) = 10 interprètes. 


2 
1) La langue parlée par le congressiste peut être associée à chacune 
des quatre autres langues pour constituer le profil d’un interprète bilin- 


4 
gue. La probabilité est donc : FT 0,4. 


2) Les deux congressistes étant de langues différentes, il y a un seul 
interprète qui parle leur deux langues. La probabilité pour que l’inter- 
prète choisi au hasard puisse traduire la conversation est donc de 


Il 
— =0,1. 
10 


Pour que l’interprète comprenne au moins un congressiste, il faut qu’il 
comprenne le premier ou le deuxième. 
Comme on sait que : 


P(AU B) = P(A) + P(B)-— P(ANB) 
la probabilité est donc : 0,4 + 0,4 — 0,1 = 0,7. 


On peut aussi utiliser l'événement contraire : si l'interprète ne comprend aucun 


ni) 


des deux congressistes, ses deux langues sont à choisir de ( 2) = 8 façons. 
3) Loi de X 
Les deux interprètes étant distincts, le nombre X de langues qu’ils par- 
lent est égal à 3 ou à 4. Etily a ( 2) — 45 façons de choisir les deux 


interprètes. 


> Si X = 3, il y a une langue commune (qu’on peut choisir de 5 
façons) et deux autres langues (qu’on peut choisir de G) = 6 


façons). D’où : 


Solutions 69 


5x6 2 
45003 


> Si X = 4, on peut choisir le premier interprète de 10 façons. Les 


P(X =3)=— 


deux langues du deuxième interprète peuvent alors être choisies 
parmi les trois qui restent de 3 façons. 

Mais en introduisant un ordre (premier, deuxième interprète) chaque 
situation a été comptée deux fois. 


10 x 3 
1 
D'OR PR de 0e 
45 3 


«On vérifie bien que P(X = 8) + P(X = 4) = 1. 


C8 


Loi de Y 

Comme les deux interprètes parlent 3 ou 4 langues, le nombre Y de lan- 
gues comprises par les trois congressistes est égal à 1,2 ou 3. 

Comme Y dépend de X, on va décomposer les événements et utiliser la 
formule des probabilités totales. 


e P(Y = 1) = P{X =3) x P(Y = 1]X =3) 
+P(X = 4) x P(Y = 1]X —4) 


Il ya G) = 10 choix possibles des langues des 3 congressistes. 


> Si X = 3, pour obtenir Y = 1, il faut que 3 congressistes parlent 
l’une des trois langues des interprètes (3 façons) et nécessairement 


3 
10 


> Si X = 4, il est impossible d’avoir Ÿ = 1car il y a au plus une lan- 


les deux autres langues. D’où : P(Y = 1]X = 3) = 


gue non comprise par les deux congressistes. D’où 
P(Y =1]X = 4) =0. 


D : PY = D =? el 0 — 0,2 
ONC : = à ris = 0:2: 


PT =2)= P(X=3)X PT —=2X=3) 
+P(X =4) x P(Y =2]X = 4) 
> Si X = 3, pour avoir Ÿ = 2, il y a 3 façons de choisir les deux lan- 


gues comprises par les congressistes et 2 façons de choisir l’autre 


6 
langue. D'où : P(Y = 2]X = 3) — 10 
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> Si X = 4, pour avoir Ÿ = 2, il y a 6 façons de choisir les deux lan- 
gues comprises par les congressistes et 1 façon de choisir l’autre lan- 
6 
gue. D'où : P(Y =2]X = 4) = Tu 
D P(Y =2) LS 0,6 
ONC : = == X À x = 06; 
3010083 0010 


+ P(Y =3) = P(X =3) x P(Y =3]X = 3) 
+P(X = 4) x P(Y =3|X =4) 


> SiX = 3, pour avoir Y = 3, il y a 1 façon de choisir les trois langues 
comprises par les congressistes. 


1 
D'où : P(Y = 3IX = 3) = —: 
où : P( | ) 10 


> Si X = 4, pour avoir Ÿ = 3, il y a 4 façons de choisir les trois lan- 
gues comprises par les congressistes. 
4 
D'où : P(Y =3]X = 4) = —: 


10 


D :PY ==? ee 
ONC : = Com ne 


., Vérifiez que : P(Y = 1)+ P(Y =2)+ P(Y =38) =1. 


5.6 a) Probabilité d'ouvrir la première porte au k-ième essai 
> k—=1 
sv , : ; Il 
La probabilité d’ouvrir au premier essai est p, = — : 


12 
> k—2 
Pour ouvrir au deuxième essai, il faut : ne pas ouvrir au premier (pro- 


A ; ; ; 2 
babilité —), puis ouvrir au deuxième essai sachant que la bonne clé 


12 
1 
est parmi les 11 clés restantes (probabilité 11 
Dos 11 1 l 
OÙ : D = — X — = —: 
nr Tr 


> D'une façon générale, pour 1 < k < 12, pour ouvrir au k-ième essai, 
il faut : ne pas ouvrir lors des k — 1 premiers essais (probabilité 


k—1 | ; : : 
1 — Nr. puis ouvrir au k-ième essai sachant que la bonne clé est 


1 
parmi les 12 — (k — 1) clés restantes (probabilité D=&-D 
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12—k+1 1 Il 
X = : 
12 12=K+ 10112 


D'où : px = 


b) Loi de X nombre total d'essais 
Pour k de 1 à 12, notons X}4 le nombre d’essais pour ouvrir la k-ième 
porte. 
Ona:X=X  +X2+...+X)p. 
Et il s’agit de variables aléatoires indépendantes car la façon d’ouvrir 
une porte n’a pas d’influence sur l’ouverture de la porte suivante. 
D’après la question précédente, X, suit la loi uniforme sur {1,...,12} 
2 
D'où : E(X;) = _n = 6,5 et V(X1) = 2 — +. 
De même, pour 1<k<12, X%7 suit la loi uniforme sur 
{1,...,12= (&—1)}. 
2—(K—1)+1 14—-K 
2 ou” 
ET SE ES Re Tr 
12 _ 1 
D’après les théorèmes sur l’espérance mathématique et la variance de la 
somme . ee ou indépendantes, on en és : 


14—k 
= 12% <T- DE 


a IE ere 1 
V(X) = > vx =  _ Ÿ nn  — 
k=1 


k=1 
_ 319 
7 6 
puis : o(X) = Y/V(X) & 7,29. 
nin+1) = > n(n+t)(2n+1) 
: ed = — 


1 
D'où : E(Xx) = 


et VÜX:) = 


EX)= D En = = 


Rappelons que : 5 k = 
k=1 k=1 


5-7 a) Loi du couple 

L'expérience aléatoire est représentée par l’espace probabilisé 
(8, P(Q),P) où & = {0; 1; 3; 5; 10}? et où P est la probabilité unifor- 
me sur @ (qui comporte 25 éléments). 

Chaque événement du type (X = i et Ÿ = j) avec à € {0; 1; 3; 5; 10} 
et j€e{0;,1;3;5; 10} se ramène à un événement de P(Q). Par 
exemple : 
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P(X = 10 et Y = 10) 


= (tac 0),(10; 1),(10; 3),(10; 5),(10; 10)})= 2 


L'ensemble des résultats déterminant la loi du couple (X,Y) figure dans 
le tableau ci-dessous : 


Y 0 1 3 5 10 
X 
. 1 1 1 1 1 
25 25 25 25 25 
2 1 Î 1 
1 0 
25 25 25 25 
3 1 
3 0 0 — — — 
25 25 
4 
5 0 0 0 = — 
25 2. 
5 
10 0 0 (e) 0 — 
25 


b) Lois marginales 
Par addition, on obtient les lois marginales : 


1 1 1 1 1 
le) tt lie 
à (3). (3). 63). (53). (003) 
1 3 5 7 9 
F0 1 — =). (10: = 
" (e à) | 3) | (e =) L (s =) | (ie =) 


Comme, par exemple, P(X = 0 et Y = 0) Æ P(X = 0) x P(Y = 0), 


les variables aléatoires X et Y ne sont pas indépendantes. 


La définition mathématique va dans le même sens que l'intuition : X est asso- 
ciée à la première marguerite et Ÿ aux deux marguerites. Il doit donc y avoir 
un lien entre X et Y. 


c) Loi de la somme 
Les valeurs possibles pour Z = X + Y sont: 

{0; 1: 2; 3:44; 5; 6: 8; 10: 11; 13; 15:20} 
et les probabilités correspondantes : 


1 
Pre Br = tar = > 
( ) ( e ) = 


Solutions 


1 
P(Z=1)=P(X=0etY =1)+P(X=1l1et Y =0) = — 
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PAZ =PX= Ir =D 


25 
2 
25 
1 
+ 
1 
Sr 
1 
 - 


P(Z=6) = PIX=54T=D+PN=3AT 2 


4 
PRIT )e— 
( É = 3 


1 
P(Z=8)= PX=5eY=3)+P(X=3e@Y=5) = 
P(Z = 10) = P(X = 10etY = 0)+ P(X =5et} =5) 


5 
RDA 10 
Poe = 


Il 
ECTS CESSION SR CRI 


1 


P(Z=13) = P(X =10etY =3) + P(X =3et Y = 10) = — 


25 
1 


ES  —- 


ë 


PLZ = 00) = PR DAT = 10) = — 


d) Loi du produit 


25 


Les valeurs possibles pour T = XY sont : 


{0; 1; 3; 5; 9; 10; 15; 25; 30; 50; 100} 


et les probabilités correspondantes : 


PCT = 0) = PIX =0ët? = 0)-+P(X = 0et Ÿ =0) 


P(X = 0et Y = 3) - 
LP(X = let} =0)- 


EP(X = 10et Y = 0) 


- P(X =0etY =5) + P(X =0et y = 10) 
- P(X =3et Y =0) + P(X =5etY = 0) 
5 


25 
2 


P(T=l)=PX=tArT =) =— 


25 


Il 
SE - 
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Il 
PT =5)=P(X=1etr =5)+P(X=5e«t}7 = 1) = — 


25 
3 
P(T=M)=P(K=ST =3)=— 
( ) ( e ) 25 
1 
SE — 
1 
SR  - 
4 
1 
ES 
1 
—- 
5 
DE OS REIN 
e) Calculs de paramètres 
19 135 
E(X) = = 325 EX) a 27 : V(X) = 12,56 
143 2 1123 
E(Y)= — =5,72; E(Y°) = —— = 44,9 ; V(Y) = 12,2016 
25 25 
238 
DAS 7272 00606 


On observe que l'on a bien E(X + Y) = E(X) + E(Y), ce qui est un résultat 
Ps général, mais que V(X + Y)£ V(X) + V(Y) ce qui confirme que X et Ÿ ne sont 
pas indépendantes. 


E(XY) = 29,68 ; V(XY) = 1379,2576 


On observe que E(XY)£ E(X) E(Y), ce qui confirme que X et Y ne sont pas 
é indépendantes. 


Cov(X,Y) = E(XY) — E(X) E(Y) = 7,944 
RON 
5 07) 


Variables aléatoires 
discrètes (cas infini) 


CHAPITRE 


6.1 Notions sur les séries numériques 


Z 
< 6.2 Généralités sur les variables aléatoires discrètes (cas infini) 
CE : : 
6.3 Lois classiques 
VA > Acquérir quelques notions sur les séries numériques pour fonder les 
= variables du chapitre 
ÿ > Comprendre une variable aléatoire dont les valeurs possibles sont du 
= 
a type N 
1 > Savoir reconnaître et utiliser les lois classiques du chapitre 


6.1 NOTIONS SUR LES SÉRIES NUMÉRIQUES 


Convergence 


Soit (u4) une suite de nombres. 
+ On dit que la série >. u, (ou encore la série de terme général u}) est 


convergente si la suite (S,) de terme général : 
n 
Sa = ŸUx = 0 + ui ++ Un 
k=0 


tend vers une limite finie S. On note S la somme de la série : 


S, est appelée somme partielle d’ordre n. 
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OO 


La différence R, — S — S, — + u, est le reste d’ordre n. C’est l’er- 
k=n+1 
reur commise en remplaçant S par sa valeur approchée S,. 


° Si la série ” u, n’est pas convergente, on dit qu’elle est divergente. 


Convergence absolue 


La série 2 u, est dite absolument convergente, si la série 2 [uk| est 


convergente. 

Si une série est absolument convergente, alors elle est convergente. mais 
la réciproque est fausse. 

Dans le cas d’une série absolument convergente, la somme ne dépend 
pas de l’ordre des termes. Alors que si une série est convergente sans 
être absolument convergente, en modifiant l’ordre des termes, on peut 
obtenir une série qui converge vers n’importe quel réel choisi à l’avan- 
ce. 


Séries classiques 


a) Les séries de Riemann 


1 
>» Fr converge <> à > 1. 


1 
En particulier, la série divergente D & est appelée série harmonique. 


b) La série exponentielle 


c) La série géométrique 


het ex 
Si < ——— 
à 1l—x 27 


et celles que l’on obtient en dérivant, comme : 


: Il k—1 
Si x] < 1 Te nd (i 
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si |x| <1 Re 0 FR 
OR 


6.2 GÉNÉRALITÉS SUR LES VARIABLES ALÉATOIRES DISCRÈTES 
(CAS INFINI) 


Définition 


Une variable aléatoire X est dite discrète lorsque l’ensemble des valeurs 
prises par X est dénombrable, c’est-à-dire assimilable à l’ensemble des 
entiers naturels N (ou N* si on enlève O0). 

Dans ce cas, la distribution de probabilité (ou loi de probabilité) de X 
correspond à la connaissance des nombres p; = P(X = k), ces 
nombres étant soumis aux conditions : 


OO 
VkeN 20 et > 1 
k=0 


OO 


Par rapport au cas fini, ce qui change, c'est que la somme D pk est une série 
k=0 

et non plus une somme comportant un nombre fini de termes. Il peut donc 

arriver qu'il y ait un problème de convergence. 


Espérance mathématique, variance 


À condition que les séries écrites soient absolument convergentes, on 
définit : 


> l’espérance mathématique de X par : 
OO 
E(X) = si Pk 

k=0 
> la variance de X par : 

2 © 2 

V(X)= E[X -E(X)] = D (k—E(X)) 
O0 


= E(X?) — (E(X)) = (Xe ni) — (EX) 


k=0 


> l’écart type par : o(X) = /V(X). 
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> L'indépendance de deux variables aléatoires se définit à partir de la 
loi du couple, de manière analogue au cas fini. La seule différence, 
c’est que les sommes qui conduisent aux lois marginales sont des 
séries. 

> Les théorèmes relatifs aux opérations sur les variables aléatoires 
sont les mêmes, aussi bien les théorèmes généraux que les théorèmes 
vérifiés dans le cas de variables aléatoires indépendantes, dont les 
principaux sont : 


— on a toujours : 
E(X +Y) = E(X) + E(Y) ; 
— si X et Y sont indépendantes, on a : 


V(X+Y)=V(X)+V(Y) et E(XY) = E(X)E(Y). 


6.3 LOIS CLASSIQUES 
Loi géométrique 
a) Conditions du modèle 


Dans les mêmes hypothèses qui conduisent à la loi binomiale, on obtient 
la loi géométrique quand la variable aléatoire X désigne le temps 
d’attente de l’événement À, c’est-à-dire le rang de la première réalisation 
de À. 


b) Loi de probabilité 
L’univers-image de X est N* : 
Vk e N* P(X =k) = pat! 


c) Paramètres 


1 q 
Le VX) = +: 
P P 


Loi de Poisson 


a) Conditions du modèle 


La loi de Poisson est utilisée pour modéliser le nombre d’apparitions 
d’un événement rare, par exemple dans la désintégration atomique. 
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En écologie, on l'utilise pour modéliser la distribution d’une espèce 
végétale sans intervention humaine (ce qui est à l’opposé d’une planta- 
tion de peupliers où on a une loi uniforme, comme le paysage!). 

b) Loi de probabilité 

X suit la loi de Poisson de paramètre À (avec À > 0), loi notée P(À), si 
son univers-image est N et si : 

k 


VkEeN P(X =k) = it 


c) Paramètres 
E(X) = À : V(X) = À. 
d) Somme 


Si X suit la loi P(A1) et Y la loi P(), et si X et Y sont indépendantes, 
alors X + Y suit la loi P(ÀA; + À). 


Approximation d’une loi binomiale 
par une loi de Poisson 


Théorème. Soit (X,) une suite de variables aléatoires discrètes telles 
que, pour tout n, X, suive la loi binomiale B(n,p,) avec 
lim np, = À (avec À > O). 

1 {là 2) 


Alors (X,) converge en loi vers une variable aléatoire discrète X qui 
suit la loi de Poisson P(), ce qui signifie : 


k 


À 
lim P(X,=k)=e\—. 
n— 00 Kk! 


Utilisation pratique 

Si n est grand et p assez petit, on peut remplacer la loi binomiale B(n, p) 
par la loi de Poisson de même espérance mathématique P (np). 

Dans la pratique, on admet souvent que cette approximation est satisfai- 
sante lorsque n > 30 et p < 0,1 avec np < 10. 

Mais il ne s’agit que d’une convention, qui peut donc varier selon les 
auteurs. L'intérêt d’une telle approximation apparaît quand les calculs 
sont plus simples. Par exemple, avec la loi binomiale B(100; 0,05), 
on a: 
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ed (2) (0,05)(0,95)% + 0,178 


et avec la loi de Poisson approchée P(5) : 
54 
P(X =4) = te & 0,175. 


Avec un temps de calcul réduit, on obtient une valeur numérique très 
proche. 


po Bizarrerie d’une série semi-convergente 


Une série semi-convergente est une série qui converge, sans être abso- 
lument convergente. Dans ce cas, la convergence dépend de l’ordre 
des termes. 

Considérons, comme exemple, la série harmonique alternée : 


Er QE TES OA vu Le 

_ EAN DRE EN 
On peut aussi l’écrire : 
1 1,1 1 La " 1 
2 PAT TEN GS 2n +1 

1 1 
2Q2n+1) 2(2n +72) 

1 fier : 1 1 | 
COUT EU Cr D Nr 2) 


On a divisé sa somme par 2 ! Bizarre ! 

En fait, pour qu’une série ne dépende pas de l’ordre des termes, il 
faut, et il suffit, qu’elle soit absolument convergente. 

C’est pourquoi, on a eu cette exigence dans la définition de E(X). 


& MOTS-CLÉS 


> Série numérique 


> Loi géométrique 
> Loi de Poisson 
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EXERCICES 


6-1 a) Déterminez les réels a et b tels que 


Vk € N* a 
kR(&+I) &k k+Ii 
b) Montrez qu’en posant, pour tout & € N*, P(X = k) = en Fi 


peut définir une distribution de probabilité sur N* en choisissant bien a. 


c) Dans ce cas, déterminez, si elles existent, E(X) et V(X). 


6-2 Le nombre mensuel X d’apparition d’un événement rare suit une loi 
de Poisson. La probabilité d’observer 2 cas en un mois est de 0,201 ; 
celle d’observer 3 cas est de 0,074. 

Estimez le nombre moyen de cas pour un mois. 


6-3 Soit X et Ÿ deux variables aléatoires indépendantes. X suit la loi de 
Poisson de paramètre À1, Ÿ suit la loi de Poisson de paramètre À. 
Étudiez la loi de probabilité de la variable aléatoire Z = X + . 


6-4 Un bureau de réservation reçoit, entre 10 h et 12 h, en moyenne, 1,2 
appels téléphoniques par minute. On modélise ce phénomène par une 
variable aléatoire de Poisson. Déterminez : 
a) la probabilité pour qu'entre 11 h et 11 h O1 on ait: 

1) aucun appel ; 

2) un appel ; 

3) deux appels ; 
b) la probabilité de recevoir 4 appels entre 11 h et 11 h O2. 


6-5 Un liquide contient 10° bactéries par litre, réparties au hasard. 
On en prélève 1 mm. 

a) Quelle est la probabilité que ce prélèvement ne contienne aucune bac- 
térie ? 

b) Quelle est la probabilité qu’il contienne au moins 3 bactéries ? 


6-6 On a observé que 2 % des micro-ordinateurs d’un type donné tom- 
baient en panne par mois d’utilisation. Aucun ordinateur ne tombe deux 
fois en panne dans le même mois. 

Une entreprise décide d’acquérir 150 micros de ce type. 

a) Calculez la probabilité des événements : 
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1) le nombre mensuel de pannes est 5. 

2) le nombre mensuel de pannes est au plus égal à 3. 
b) Déterminez le nombre minimum n tel que la probabilité de l’événe- 
ment « le nombre de pannes est au plus n » soit supérieure à 0,90. 


6-7 Dans une station de ski, on peut se rendre aux départs respectifs des 
pistes À et B par deux remontées mécaniques qui partent du même point 
D de la station. 

Le nombre de skieurs qui se présentent en D pendant une heure est une 
variable aléatoire N qui suit une loi de Poisson de paramètre À. 

On admet d’autre part qu’on a atteint un régime stable tel que chacun des 
skieurs choisit, indépendamment des précédents, À ou B avec des pro- 
babilités fixes p et q = 1 — p. 

On note X la variable aléatoire : nombre de skieurs qui choisissent A 
pendant une heure. 

a) Déterminez la loi conjointe du couple (X,N) en calculant pour k et n 
entiers : P(X=ket N = n). 

b) Déterminez la loi marginale de X en calculant, pour tout k entier, 
P(X = k). De quelle loi s’agit-il ? 

c) Calculez le nombre moyen de skieurs se présentant pendant une heure 
au départ de la piste À. 


SOLUTIONS 


6-1 a) En réduisant au même dénominateur et en utilisant l’unicité de 
l’écriture d’un polynôme, ou par des méthodes plus rapides, on obtient : 
1 1 1 


VE € N° : 
à EGED  E& k+i 


b) Il faut à > 0 et que la série des p4 converge vers 1. 
Écrivons une somme partielle et transformons la, avec la question pré- 
cédente et en renumérotant les indices de sommation : 


1 A RE 
en. nee k 


Les valeurs de k toutes présentes s’éliminent et il reste après simplifica- 


1 1 
tion : —S, = 1 dont la limite est 1 quand ntend vers l'infini. 
a n 


En choisissant a = 1, on a donc une distribution de probabilité sur N*. 
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! 1 
c) E(X k 
= >: Pk = Den = 
Comme k p4 est équivalent à Fa terme général d’une série divergente, X 
n’a pas d’espérance mathématique. 
6-2 Si X suit la loi de Poisson de paramètre À, avec les informations 
fournies, on a : 
2 3 


P(X=2)=e" : —=0,201 et P(X =3)=e : = 0,074. 


On en déduit : 


P(X=3) À 0,074 
P(X=2) 3 0,201 


d’où À & 1,1. 


Comme E(X) = À pour une loi de Poisson, il y a donc en moyenne 
environ 1,1 cas par mois. 


6-3 Si Zsuit une loi de Poisson (ce qui n'est pas sûr), son paramètre sera néces- 
sairement À, +À, puisque, dans le cas d'une loi de Poisson, l'espérance 


mathématique est égale au paramètre et que les espérances mathéma- 
tiques s'ajoutent toujours. 


Les valeurs possibles pour X et Y étant N, il est en de même pour Z. 
Soit k un élément quelconque de N. On veut calculer P(Z = k). 
L'événement X + Y = k se décompose comme réunion des événements 
deux à deux incompatibles : 


(X=0etY =k)(X =1etY =k—1),...(X =ket Y = 0). 
D'où : 
k 
PEUR N PA AT En), 
i=0 
X et Y étant des variables aléatoires indépendants, on a : 
P(X=ietrY =k—-i) = P(X =i) x P(Y =k-—;i). 


D'autre part, X et Y suivant des lois de Poisson : 


x 
EC 
AL 
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D'où : 


 Æ il EN 


k 
1 : £ 
— e—Ai+) a 
: ET ET) Le 


e-Ai+h) k k : ee 
ur à XX 
: i=0 


e-(Ai+h) 


= ur + d’après la formule du binôme. 


On observe donc que Z suit la loi de Poisson de paramètre À1 + À2, mais 
il a fallu hypothèse d'indépendance entre X et Y. 


6-4 a) Soit X le nombre d’appels téléphoniques reçus pendant 1 
minute. 
X suit une loi de Poisson de paramètre À. 
On sait que, pour une loi de Poisson, E(X) = À. Comme l'information 
fournie peut s’écrire E(X) = 1,2, on en déduit que À = 1,2. 
1) P(X =0)=e-!2*% 0,301. 
2) P(X=1)=e 7? x1,2% 0,361. 
(132) 
2 


3) P(X =2)=el? x 0217. 


b) Notons X le nombre d’appels reçus entre 11 h et 11 h O1, 

Y le nombre d’appels reçus entre 11 h 01 et 11 h 02, Z le nombre d’ap- 
pels reçus entre 11 h et 11 h O2. 

On a Z = X + Y et on demande P(Z = 4). 

X et Y suivent la loi de Poisson de paramètre À = 1,2. D'autre part, on 
va les supposer indépendantes, c’est-à-dire que le nombre d’appels 
reçus entre 11 het 11 h O1 n’a pas d’influence sur le nombre d’appels 
reçus entre 11 h 01 et 11 h 02, ce qui suppose que le central n’a pas été 
saturé. 

Dans ce cas, on sait que (cf. exercice précédent), Z suit la loi de Poisson 
de paramètre À + À = 2,4. 


D'où : P(Z=4)=e"24x 0125. 


(2,4) 
24 


6-5 L'exercice suppose les bactéries réparties au hasard dans le liquide. C'est le 
comportement de la majorité des bactéries, mais pas de toutes.Par exemple, 
certaines sont attirées par les parois et dans ce cas là, l'exercice ne s'applique 
plus. 
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Dans un litre de liquide, chacune des 10° bactéries peut : 

— être présente dans le mm prélevé, avec une probabilité p = 107 car 
il y a 109 mm dans un litre et la répartition est supposée équiproba- 
ble ; 

— être absente du mm prélevé, avec une probabilité q = 1 — p. 

Soit X le nombre de bactéries présentes dans le mm prélevé. 

X suit la loi binomiale B(10*:; 107) et les calculs directs sont possibles 

(et pénibles). 

Avec n = 10° et p = 107%, nous pouvons aussi approximer la loi bino- 

miale par la loi de Poisson de paramètre À = E(X) = np = 0,1, ce qui 

conduit à des calculs beaucoup plus faciles. 

a) On demande P(X = 0). 

> Calcul direct 

P(X =0) = (1— 1076) & 0,904 837 463 

>» Approximation par la loi de Poisson 

P(X =0)=e %! & 0,904 837 418. 

b) On demande 

P(X3>3=1-[P(X=0)+P(X =1)+ P(X =2)|. 

> Calcul direct 

P(X = 1) = 10° x 10-61 — 106) 0-1 & 0,090 483 837 

Fe COS Se D G0-624 — 10-5102 

% 0,004 524 151 

D'où : P(X > 3) & 0,000 154 549. 


>» Approximation par la loi de Poisson 


0,1)? 
P(X>3)=1-e 0! (i+on+ ) 


) & 0,000 154 653. 


Pour chacune des deux questions, la précision retenue est uniquement desti- 
née à montrer la qualité de l'approximation par la loi de Poisson. Elle serait évi- 
demment illusoire en situation expérimentale. 


6-6 Soit X le nombre mensuel de pannes. Comme aucun ordinateur ne 
tombe deux fois en panne le même mois, si on suppose en plus l’indé- 
pendance des pannes, X suit B(150; 0,02). 

Les valeurs de n et de p permettent d’approximer cette loi par la loi de 
Poisson P(3). 
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5) 
a) 1) P(X=5)=e > . & 0,101. 


Re. 
2) P(X <3)=e "[1+3+ Su FA = 13e -° = 0,647. 


b) Pour répondre à la question, il faut cumuler les probabilités élémen- 
taires. Il existe des tables adaptées, sinon on fait les calculs de proche en 
proche : 


P(X < 4) = 16,375e ° = 0,815 
P(X <5)=18,4e * & 0,916 
P(X < 6) = 19,4125 e* = 0,966 
P(X < 7) = 19,846 e ° = 0,988 
P(X < 8) = 20,009 ei 0,996 


Le nombre minimum cherché est donc n = 8. 


6-7 a) Soit k et n des entiers naturels. Pour que l’événement 

(X =ket N = n) ne soit pas impossible, il est nécessaire que k < n. 

Dans ce cas, on peut écrire : 

P(X=ketN=n)= P(N=n) x P(X =Kk/N =n). 

N suivant une loi de Poisson de paramètre À, on a 
À? 


P(IN=n)=e À —. 
n! 


Si on sait que N = n, comme chacun des skieurs qui se présentent en D 
a une probabilité p de choisir À et qu’il y a indépendance entre les 
skieurs, on a une loi binomiale, soit : 


P(X =E)N =n) = (%) ptg"-k. Donc : 


N° n! 
n! kl(n—k)! 


k,,n—k 


P(X=ketN =n)=e pq aveck £n. 


b) Soit k entier naturel, et cherchons P(X = k). Dans ce cas, n peut 
prendre toutes les valeurs entières telles que 7 > k. Donc : 


(Ag) # 
fn =b)! 


00 = 00 
PX=D =) PA =keN Zn) = (ApY D) 
L n=k 


n=k 


CR ee, (Ag)" 
nr: (Xp)! » n. en posant n’ = n —k 
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CA 
_ FT (Ap)" e"1 


k 
= eP cr ) 
La loi de X est donc la loi de Poisson de paramètre Àp. 
c) Le nombre moyen de skieurs qui se présentent pendant une heure au 
départ de la piste À est E(X). 
Comme X suit une loi de Poisson de paramètre Àp, on a : E(X) = Ap. 


Variables aléatoires 
continues 


CHAPITRE 


7.1 Notions sur les intégrales généralisées 


7.2 Généralités sur les variables aléatoires continues 


PLAN 


7.3 Lois classiques 

> Acquérir quelques notions sur les intégrales généralisées pour fonder les 
variables du chapitre 

> Comprendre une variable dont les valeurs possibles sont du type R 


> Savoir reconnaître et utiliser les lois classiques du chapitre 


OBJECTIFS 


7.1 NOTIONS SUR LES INTÉGRALES GÉNÉRALISÉES 


> Soit f une fonction définie sur [a, + et intégrable sur tout segment 
[a,x]. On dit que f est d’intégrale convergente sur [a,+ool[, ou que 


+00 
l'intégrale f(t) dt converge, ou existe, si la fonction : 
x 1 f() dt 
possède une limite finie lorsque x tend vers +oo. On note alors : 
x +00 
lim [ fG) dt = f() dr. 
X— 00 a a 


Dans le cas contraire, on dit que l’intégrale diverge. 


> On définit de manière analogue : 1 ft) dt = lim Î f(x) dt 
Es x——00 j, 


puis, avec a quelconque : 
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+00 +00 


ft dt = 1 roë+ [for 


7.2 GÉNÉRALITÉS SUR LES VARIABLES ALÉATOIRES CONTINUES 


Si 2 n’est pas dénombrable, il n’est plus possible de choisir T = P((2). 
La tribu retenue se construit à partir des intervalles. Pour définir la dis- 
tribution de probabilité d’une telle variable aléatoire X, il faut connaître 
la probabilité des événements : 


Éd ASXEbIX= à: 
Définition 


Soit X une variable aléatoire et F; sa fonction de répartition, c’est-à-dire 
Fx(x) = P(X < x). On dit que X est une variable continue s’il existe 
une fonction f de R dans R, dite densité de probabilité de X, telle 
que : 


(DVXER fG)z0;: 


(2) f est continue sur R sauf peut-être en un nombre fini de points où elle 
admet une limite à gauche et une limite à droite finies ; 

+00 
(3) ft) dt existe et vaut 1 ; 


—00 


(4) Fx est liée à f par : Fx(x) = jl f(®) dt pour tout x. 
—00 


Propriété 


Sia <b,ona: 
b 
PQ<X ED = FE) Ex = | FE) dr. 


On en déduit que P(X = a) = 0 pour tout a. 

is On a donc un événement qui n'est pas imposssible et dont la probabilité est nulle. 
Si cela vous trouble beaucoup, pensez qu'un point n'est pas vide et qu'il a pourtant 
une longueur nulle. 
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Espérance mathématique, variance 


Soit X une variable aléatoire continue dont f est une densité. À condi- 
tion que les intégrales convergent, on définit : 


> l’espérance mathématique de X par : 


+00 
E(X) = Î tf() dt 


CO 


> la variance de X par : 


+00 
V(X) = E[X - E(X)] = Î (— E(X)) f( di 


(ee 


= E(X?) - (E(X)) 2 f(t) ar) (2%). 


> l'écart type par : o(X) = /V(X). 


L'indépendance de deux variables aléatoires se définit là encore à partir 
de la loi du couple. 


7.3 LOIS CLASSIQUES 
Loi uniforme sur [a, b] 


a) Densité 


X suit la loi uniforme sur le segment [a,b], notée U{[a,b], si elle admet 
pour densité de probabilité la fonction f définie par : 


Fo) = six € [a,b] 
f(x) = _—— six € [ab] 
b—a 


b) Paramètres 


= 2 
a+b | ve a) 


E(X) = = 
(9) 2 ; 12 


En statistique descriptive, quand les données sont groupées en classes, le 
réflexe qui consiste à remplacer chaque intervalle par son milieu est fondé sur 
l'hypothèse de répartition uniforme. Comme E(X) est le milieu de l'intervalle, 
la moyenne est inchangée. Mais la variance est modifiée. On peut alors utiliser 
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2 
la correction de Sheppard (retrancher e où h est l'amplitude des classes) 


fondée sur le calcul de V(X). 


Loi exponentielle 


a) Densité 


X suit la loi exponentielle de paramètre À > 0, notée € (A), si elle admet 
pour densité de probabilité la fonction f définie par : 


FX):=0 six < 0 
fo=xe À six >0 
b) Paramètres 


Il 1 
LOUE : VOS 


La loi exponentielle est utilisée, par exemple, pour modéliser la durée de vie d'un 
appareil qui fonctionne sans usure, les seules causes de panne étant externes. 


Loi normale, ou loi de Gauss, ou loi de Laplace-Gauss 


a) Densité 


X suit la loi de Gauss de paramètres y et o, notée N(u,0) si elle admet 
pour densité de probabilité la fonction f définie par : 


ne (x — y) 
re = esp ( 2 ) 


b) Paramètres 
E(X)=u ; V(X)= 0. 


c) Loi normale centrée réduite 


r suit la loi N(0,1). 


La variable centrée réduite U = 
o 


Tout problème relatif à X se ramène à U et on dispose (support papier 
ou électronique) de plusieurs tables concernant U. 
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> La table de la fonction de 
répartition (cf. annexe table 1) 
notée dans ce cas particulier 
(x) (ou IT(x)) pour la distin- 
guer de la notation générale 
F(x). 0 
Un réel x étant donné (arrondi 


à 10-2 sur support papier), la Figure 7-1 


table donne (x) pour x > 0. 
Pour x < 0,on a: 
D(—x) = 1 — P(x). 
> La table des écarts réduits 
(cf. annexe table 2) 
Une probabilité « étant 
donnée (arrondie à 102 sur ee 
support papier), la table 
donne la valeur z, > 0 telle 
que 
P(IU| > ua) = à. Figure 7-2 


D 
De 


d) Somme 


Si X suit la loi W(,,01) et Y la loi N(w,,02), et si X et Y sont indé- 


pendantes, alors X + Y suit W ( + L,4/ 07 + 03 ) : 


Approximation d’une loi binomiale 
par une loi normale 


Théorème. Soit X une variable aléatoire qui suit la loi binomiale 
B(n,p). Pour n assez grand et p pas trop voisin de 0 et de 1, Xsuit à 
peu près la loi normale W(np,,/npq) de même espérance mathéma- 
tique et de même écart type. 


En pratique on utilise souvent cette approximation lorsque nr > 30, 
np > Setng > 5. Mais d’autres conventions existent. 


Correction de continuité 


Si k, et k, sont deux entiers compris entre 0 et n, les intervalles ]k,k2[ 
et [k1,k2] n’ont pas la même probabilité pour la loi binomiale, alors 
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qu’ils ont la même probabilité pour la loi normale. Cela est dû au fait 
qu’on approche une loi discrète par une loi continue. 

On peut corriger cette différence en remplaçant Jki,k[ par 
Ji + 0,5; ki — 0,5]et en remplaçant [k1,k2]par [ki — 0,5; k2 + 0,5]. 


po Pour rassurer les non-matheux 


On ne fera du calcul intégral que dans des cas très simples. La plupart 
du temps, représentez-vous graphiquement la situation. 

Une densité est une fonction positive, avec parfois quelques sauts ver- 
ticaux, et dont la surface entre l’axe des abscisses et la courbe a un 
sens et vaut 1. 


P(a<X<b) 
: #4) 
A D 
a b 
Figure 7-3 


La probabilité d’un intervalle [a,b] est alors visualisée par la surface 
appuyée sur [a,b]Jet limitée par la courbe de f. 

Dans la plupart des cas pratiques, il vous restera à apprendre à lire 
dans des tables toutes prêtes …… sauf si vous avez le droit d’utiliser un 
ordinateur. 


æ MOTS-CLÉS 


Intégrale généralisée 
Densité de probabilité 
Loi uniforme 


Loi exponentielle 


YNNNNYN 


Loi normale 
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EXERCICES 


7-1 Soit f la fonction définie sur R par : 
fx)=ax(i—-x)six ef[0; 1] ; f(x) =0six &[0; 1]. 


a) Pour quelle valeur de a, f est-elle une densité de probabilité ? 
b) Calculez alors E(X) et V(X)pour une variable aléatoire X admettant 
cette densité. 


7-2 Pour un certain type d’ampoules électriques, la durée de vie en heu- 
res d’une ampoule est une variable aléatoire dont la loi de probabilité 
admet une densité de probabilité f définie par : 


ftH)=0sit<0 ; f(t)=ate " sit>0. 


où a et À sont des constantes strictement positives. 
Sachant que la durée de vie moyenne de ces ampoules est de 1 000 heu- 
res, déterminez la valeur des constantes a et À. 


7-3 Exercices de lecture des tables de la loi normale centrée réduite 

a) Si X suit la loi N(4; 2), déterminez P(X < 6). 

b) Si X suit la loi W(3:1,5), déterminez y pour que 
P(X < y) = 0,4218. 

c) Si X suit la loi (5; 2), déterminez P(2,5 < X < 6,5). 

d) Si X suit la loi (6; 2), déterminez un intervalle, centré sur la moyen- 
ne, de probabilité 0,9. 


7-4 Dans une population de veaux, la masse d’un animal pris au hasard 
est une variable aléatoire X qui suit une loi normale d’espérance mathé- 
matique 500 kg et d’écart type 40 kg. On prélève un échantillon de 80 
veaux. 

a) Combien de veaux pèsent plus de 560 kg ? 

b) Combien de veaux pèsent moins de 480 kg ? 

c) Combien de veaux ont une masse comprise entre 450 et 550 kg ? 

d) On sélectionne pour la reproduction les 15% supérieurs de l’échan- 
tillon. À partir de quelle masse un animal sera-t-il sélectionné ? 


7-5 On suppose, dans cet exercice, que toutes les durées de trajet sui- 
vent des lois normales. 

a) Une directrice quitte son domicile à 8 h 45 pour aller à son bureau qui 
ouvre à 9 h. Quelle est la probabilité pour qu’elle arrive en retard sachant 
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que la durée moyenne du trajet est de 13 min avec un écart type égal à 3 
min ? 

b) Le secrétaire se rend au même bureau en utilisant le train puis l’auto- 
bus. Le train part à 8 h 32, le trajet durant en moyenne 16 min avec un 
écart type de 2 min. L’autobus part à 8 h 50 (sans attendre l’arrivée du 
train), le trajet durant en moyenne 9 min avec un écart type de 1 min. 
Quelle est la probabilité pour que le secrétaire arrive à l’heure ? 


c) Quelle est la probabilité pour que la directrice ou le secrétaire arrive à 
l'heure ? 


7-6 Dans une population homogène de 20 000 habitants, la probabilité 
pour qu’une personne quelconque demande à être vaccinée contre la 
grippe est de 0,4. 

De combien de vaccins doit-on disposer pour que la probabilité qu’on 
vienne à en manquer soit inférieure à 0,1 ? 


7-7 Dans un certain type de graine, la probabilité de germination est 
p = 0,8. Une personne sème 400 graines. Calculez la probabilité pour 
que 300, au moins, germent. 


7-8 La longueur des tiges de chrysanthèmes en fleurs coupées intervient 
dans le classement par catégorie. Pour simplifier, on supposera par la 
suite que cette longueur sera le seul critère de classement. Un chrysan- 
thème sera classé en catégorie extra si la longueur de sa tige est supé- 
rieure ou égale à 80 cm. 

Au 1% décembre, on évalue la production d’une certaine serre à 6 000 
chrysanthèmes pour le mois. À cette époque, les chrysanthèmes classés 
en catégorie extra sont payé au producteur 10 € les dix, et les autres 
6 € les dix seulement. 

La qualité de la production ayant été étudiée sur un échantillon de 100 
tiges coupées de chrysanthèmes, on en conclut que la longueur des tiges 
coupées est une variable aléatoire qui suit une loi normale de moyenne 
92 cm et d’écart type 8 cm. 

a) Quelle est la probabilité pour qu’une fleur soit classée en catégorie 
extra ? 

b) Quelle est l’espérance mathématique du nombre de fleurs qui seront 
classées en catégorie extra sur les 6 000 fleurs de la production de 
décembre ? 

c) Déduisez-en l’espérance mathématique de la recette pour le total de la 
production de la serre pendant ce mois. 
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7-9 Albert et Bernard décident de faire n parties de pile ou face, avec 
un enjeu de 1 € par partie. 

Chacun d’eux dispose de la somme de 20 €. Le règlement aura lieu à la 
fin de la n-ième partie. 

a) Soit X le nombre de parties que gagnera Albert. À quelle double 
inégalité doit satisfaire X pour que le règlement puisse s’effectuer sans 
dette de l’un ou l’autre joueur ? 

b) Déterminez une valeur de ñn pour que la probabilité d’un règlement 
sans dette soit au moins égale à 0,68. 


SOLUTIONS 


7-1 a) La fonction f est positive ou nulle si a > 0 et continue sur R. 
Pour que f soit une densité de probabilité, il reste donc la condition : 


+00 
1 Fx)idr= 1 


00 
1 


: x? x? a 
me rar = a | stades al 2) à. 


Il faut donc choisir a = 6. 


+00 il 
b) Eco = | «dr =6 | d'ou 
— 0 


(ee) 


+00 


+00 1 
E(X?) | x? f(x) dx = 6 | x° (1— x) dx 
= 0 


(ee 


V(X) = E(X?) — (E(X))° = 0,05. 

7-2 + Comme f est positive et continue, pour qu’elle soit une densité de 
probabilité, il faut que : 1) _ ate-\ dt = 1. 

À l’aide d’une ne parties, on obtient : 


i —)t a — É a “i —)t 
te \ dt = [5 | <f dr 
Î é x é k + x J ê 


PRET A 
TX — —e METZ 
À À 
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Comme lim e * —=0et limxe * — 0, on obtient : 
X—+00 x—0 


+00 
Î ate Yd= +=. 
0 À 


[ee] 
° Calculons E(X) = Î are Cdi 
0 


À l’aide d’une intégration par parties, on obtient : 


X x D pa 
Î are" dt = [-S2 | + — (i ate-" dt 
0 À 0 À 0 


puis en faisant tendre x vers +0 : 


_ 2 ie —)t — 2 : 2 ,—)Xx _ 
E(X)'= ate “ dt = — car lim x°e =), 
À Jo x x—+00 


+ Comme, par hypothèse, E(X) = 1 000, on en déduit successivement : 
ÀÂ=2x10% et a=4x10 6. 


7-3 
Ayez le réflexe de ramener tout problème relatif à une loi normale à la loi normale 
n, centrée réduite. 
Vous disposez de deux tables (1 et 2). Vous pouvez répondre à toutes les questions 
avec une seule table. Mais il est plus simple d'utiliser la table 1 quand vous connais- 
sez des bornes et cherchez une probabilité, et la table 2 quand vous connaissez une 
probabilité et cherchez des bornes. 


X 4 | 
a) P(X < 6) = 1 _ 1) = P(U < 1) où U suit W(0,1) 


= (1) = 0,8413 
X —3 0 
b x <= P(< I) 


3 
= P(U < a) où U suit W(0,1) et a = — 


P(U < a) = (a) = 0,4218 entraîne a < 0 puisque la probabilité est 
< 0,5. Avec la table 2, on a: - = 0,4218, soit a & 0,84, d’où, par lec- 
ture, —a = 0,202. On en déduit x = 2,7. 
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X —S5 
2 


b)PE25<X<6,5) = P (-125 < < 0.75) 


= P(=1L,25 SU < 0,75) 
= ®(0,75) — D(—1,25) = 0,7734 — (1 — 0,8944) = 0,6678. 
c) On cherche un intervalle [6 — y; 6 + y] tel que : 
y < X —6 < y 
? ) à 


09 = PG-Y<X<643)= P( 


soit P Ce ni :) — 0,90. 


On est dans la situation de la table 2 avec & = 0,10 et on lit ; = 1,645. 
L’intervalle cherché est donc [2,71; 9,29]. 


X — 500 
7-4 Si X suit W (500; 40), alors U — at suit W(0; 1). 


a) P(X > 560) = P(U > 1,5) = 1 — P(U < 1,5) = 1 —0,9332 

= 0,0668. 

En assimilant les fréquences expérimentales aux probabilités (car 
n = 80 est « grand »), le nombre de veaux est donc : 0,0668 x 80 = 5. 
b) P(0O < X < 480) = P(—12,5 < U < —0,5) & P(U < —0,5) 
P(U < —0,5) = D(—0,5) = 1 — (0,5) = 1 — 0,6915 = 0,3085 

ce qui conduit à : 0,3085 x 80 & 25 veaux. 

c) P(450 < X < 550) = P(—1,25 < U < 1,25) =2d(1,25) — 1 

= 0,7888, ce qui conduit à : 0,7888 x 80 Æ 63 veaux. 


k — 500 
d) On cherche K tel que P(X > k) =0,15 = P (u > 1: 


40 
Cette situation correspond au graphique de la table 2 avec 5 = 0,15 et 


k — 500 


20 > (0. 


— 500 


40 
mal sera donc sélectionné à partir de 541,4 kg. 


Avec & = 0,30, on lit donc = 1,036,d’où k = 541,4. Un ani- 


7-5 a) Soit X la durée (en min) du trajet de la directrice. 
X suit la loi (13; 3). La directrice arrive en retard si X > 15. 


2 : 
P(X > 15) = P(U > 3) où U suit W(0: 1) 
% 1 — (0,67) = 1 — 0,7486 = 0,2514. 


S 
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b) Le secrétaire arrive à l’heure si le train arrive avant 8 h 50 et l’auto- 
bus arrive devant le bureau avant 9 h. 

Soit Y la durée (en min) du trajet en train ; Y suit N(16: 2). 

Soit Y’ la durée (en min) du trajet en autobus ; Y’ suit W(9; 1). 

La probabilité d’arriver à l’heure est : 


P(Y <18) x P(Y' <10) car Yet Y’ sont indépendantes 
= P(U <1) x P(U <1) où U suit W(0; 1) 
= ((1)}” = (0,8413)? = 0,7078. 


[a] 
«au moins un individu arrive à l'heure » : pensez à l'événement contraire. 


La probabilité que la directrice soit en retard est 0,2514. 

La probabilité que le secrétaire soit en retard est 1 — 0,7078 = 0,2922. 
Comme ces deux événements sont indépendants, la probabilité pour que 
les deux soient en retard est : 0,2514 x 0,2922 = 0,0735. 

On en déduit la probabilité de l’événement contraire : la directrice ou le 
secrétaire arrive à l’heure avec la probabilité : 1 — 0,0735 = 0,9265. 


7-6 
Le premier réflexe à avoir, c'est de distinguer ce qui est aléatoire (on notera avec une 
majuscule) et ce qui est inconnu mais fixé après la résolution du problème (on note- 
ra avec une minuscule). 
Le problème posé est un exemple de gestion de stock. C'est la demande qui est 
aléatoire alors que le stock à constituer est inconnu mais fixe. 


Soit D la variable aléatoire égale au nombre de vaccins demandés. En 
supposant la population homogène par rapport à une telle demande, et 
les demandes individuelles indépendantes, D suit la loi binomiale de 
paramètres 7 = 20 000 et p = 0,4. Le problème consiste à déterminer 
le nombre x de vaccins à stocker pour que : 


P(D>x)<0,1. 


Avec la loi binomiale, le problème est quasi impossible. Mais avec 
n = 20 000, np = 8 000, ng = 12 000, nous pouvons approximer la loi 
de D par la loi de Gauss de paramètres : 


E(D) = np = 8 000 et o(D) = ,/npq = V4 800. 
On a donc : 
x — 8 000 


PD>9<01— P(U> Er 
V4 800 


) < 0,1 où U suit W(0; 1). 
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On est dans la configuration graphique de la table 2 avec 5 = 0,10 et 
x — 8 000 

V4 800 
8 000 


Le 
Avec & = 0,20, on lit donc ———— — 1,282, d’où x Æ 8089. 
V4 800 


On stockera donc 8 090 vaccins et peut-être 8 100, suivant des critères 
extérieurs comme l’emballage … 


> 0. 


7-7 Soit X la variable aléatoire représentant le nombre de graines ger- 
mées sur un total de 400 graines. Si l’on admet que la germination d’une 
graine n’a pas d’influence sur la germination des graines voisines, X suit 
la loi binomiale B(400; 0,8). Le calcul direct de : 


P(X > 300) = P(X = 300) + P(X = 301) +... + P(X = 400) 


est pratiquement impossible. Mais nous sommes dans le cas où nous 
pouvons approximer la loi de X par une loi normale. 
Les paramètres de la loi de X sont : 


E(X)=np—=320 et o(X) = ,/npq — 8. 


X suit donc approximativement la loi normale (320; 8). 
Avec la correction de continuité, on obtient : 


( — 320 


P(X > 300) = P(X > 299,5) = P > -2,5625) 


= 1 — D(—2,5625) = P(2,5625) & D(2,56) 


où ® désigne la fonction de répartition de la loi normale centrée rédui- 
te. On obtient donc : P(X > 300) = 0,9948. 


7-8 a) Si X est la variable aléatoire égale à la longueur en cm de la tige 
d’un chrysanthème pris au hasard, la fleur est classée en catégorie extra 
si X > 80. 
Comme X suit la loi normale W(92; 8), on a donc : 
X—92  80— =) 
> 
8 8 
= 1— D(—1,5) = ®(1,5) = 0,9332. 
b) Chacune des n — 6000 fleurs a une probabilité p = 0,9332 d’être 
classée extra et il y a indépendance entre les fleurs. 


PX > 80) = P ( 
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Le nombre N de fleurs classées extra suit donc la loi binomiale 
B(6000; 0,9332). 

L’espérance mathématique de N est : 

E(N) = 6000 x 0,9332 & 5600. 

c) Parmi les 6000 fleurs de la production mensuelle, il y a donc en 
moyenne : 

5600 fleurs payées 10 € les 10, soit un total de 5600 € ; 

400 fleurs payées 6 € les 10, soit un total de 240 €. 

L’espérance mathématique de la recette totale pour la production men- 


suelle est donc : 5600 + 240 = 5840 €. 


7-9 a) Si X désigne le nombre de parties gagnées par Albert au cours 
des n parties, Albert a donc perdu n — X parties. 

À raison de 1 € par partie, son gain algébrique est donc de 
X—(n—X)=2X —-n. 

Le règlement s'effectuera donc sans dette si : 


—20 £<2X —-n<20— 0,5n — 10 < X < 0,5n +10. 


b) Pour chaque partie, la probabilité pour qu’ Albert gagne est de 0,5. Et 
il y a indépendance entre les parties. 

X suit donc la loi binomiale B(n; 0,5). 

Sin < 20, la probabilité d’un règlement sans dette est égale à 1. 

Entre 20 et 30, les calculs seraient pénibles. Mais si on cherche n avec 
n >30, on peut approximer la loi de X par la loi normale 
N(0,5n ; 0,54/n). 


Avec la correction de continuité, l'hypothèse s’écrit : 


P(0,5n — 10 < X < 0,5n + 10) 
= P(0,5n — 10,5 < X < 0,5n + 10,5) 

: ( 10,5 _X-—0,5n _ 10,5 
CENT EN DER 


On est dans la situation de la table 2 avec & = 0,32. 


I 
On lit : ds = 0,994, d’où n = 447. 
0,5/7n 


On peut aussi utiliser la table 1, ce qui conduit à n = 441. En situation expéri- 
mentale, cela serait sans importance. 


) > 0,68 


Échantillonnage 
Estimation 
d'un paramètre 


CHAPITRE 


8.1 Échantillonnage 
8.2 Estimation ponctuelle non biaisée 
8.3 Estimation ponctuelle d'une moyenne et d’une variance 


8.4 Estimation ponctuelle d'un pourcentage 


Z 
< 
> 
Lu 


8.5 Estimation d'un pourcentage par intervalle de confiance 
8.6 Estimation d'une moyenne par intervalle de confiance 


8.7 Estimation d'une variance par intervalle de confiance 


> Estimer par un nombre une fréquence, une moyenne, une variance, à 
partir d'une information incomplète 


> Situer dans un intervalle une fréquence, une moyenne, une varian- 
ce, à partir d'une information incomplète, avec un risque choisi ou 
à déterminer 


OBJECTIFS 


8.1 ÉCHANTILLONNAGE 


Nécessité des échantillons 


On s'intéresse souvent à l’étude d’un caractère dans une population à 
laquelle on n’a pas accès (l’ensemble des poissons d’un océan ...). Mais 
si on y avait accès, un recensement pourrait être trop cher, ou même pro- 
duire des valeurs douteuses comme quand on interroge une certaine tran- 
che de personnes sur leur âge. 

Si on extrait plusieurs échantillons de taille n fixée, les résultats obtenus 
sont variables, ce qu’on appelle des fluctuations d’échantillonnage. 
À partir d’un échantillon, on n’a donc pas de certitudes, mais des esti- 
mations de paramètres. 
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L’échantillonnage est dit non-exhaustif si le tirage des n individus cons- 
tituant l’échantillon a lieu avec remise. 

Il est exhaustif si le tirage est réalisé sans remise. En fait, le plus sou- 
vent la taille d’un échantillon est faible par rapport à celle de la popula- 
tion et on assimile alors l’échantillonnage au cas non-exhaustif. 


Constitution d’un échantillon 


L’échantillon utilisé doit être représentatif de la population, c’est-à-dire 
reproduire les catégories pertinentes pour l’étude effectuée. Pour un son- 
dage d’opinion on reproduit les tranches d’âge, mais on ne tient pas 
compte de la couleur des cheveux. 

L’échantillon doit être constitué de manière aléatoire et non par volonta- 
riat (ce sont les râleurs qui téléphonent), ou par commodité (prélever des 
épis de blé seulement en bordure du champ). 


Deux échantillons 


Pour étudier l’effet d’un traitement pouvant agir sur une maladie, d’un 
protocole pouvant agir sur la croissance. on est amené à constituer et à 
comparer deux échantillons (ou parfois plus). 

Si les échantillons sont constitués par des individus différents, il s’agit 
d'échantillons indépendants. 

S’il s’agit des nêmes individus soumis, dans un ordre tiré au sort et avec 
un délai suffisant, au principe actif et à un placebo, à chacun des deux 
protocoles … les individus sont associés deux à deux. On dit que les 
échantillons sont appariés. 


8.2 ESTIMATION PONCTUELLE NON BIAISÉE 


On dit qu’une variable aléatoire 7,, associée à un échantillon de taille n, 
est un estimateur sans biais, ou non biaisé, d’un paramètre 0 si 
E(T,) = 0. Dans le cas contraire, l’estimateur est dit biaisé. 

Si l’estimateur est non biaisé, cela signifie que, si, pour un grand nom- 
bre d’échantillons de taille n, on calcule les diverses estimations f, obte- 
nues et qu’on en fait la moyenne, on obtient à peu près 0. 


Si en plus, on a lim V(7;,), l’estimateur est dit convergent. 
N— 00 


La variance étant un indicateur de dispersion, on préfère un estimateur 
sans biais, convergent, dont la variance soit aussi faible que possible. 
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8.3 ESTIMATION PONCTUELLE D'UNE MOYENNE 
ET D'UNE VARIANCE 


Notations 


On étudie sur la population un caractère quantitatif X dont la moyenne 
L et la variance o? sont à estimer. 

Pour un échantillon de taille n, on note x1....,x, les valeurs observées 
et X,,...,X, les variables aléatoires associées. La variable aléatoire X; 
prend pour valeurs les i-èmes mesures d’un grand nombre d’échan- 
tillons. Le réel x; est la i-ème mesure de l’unique échantillon disponible. 
On définit deux variables aléatoires : 


— 1 

X = - + X; qui prend pour valeurs les moyennes des échantillons de 
i=1 

taille n ; 


1 n _ 
Ve = — Re — X)? qui prend pour valeurs les variances des échan- 
hi 


tillons de taille n. 


Estimation ponctuelle non biaisée d’une moyenne 


Théorème 


_ =. di 
ER =u : VO=—. 


X est donc un estimateur sans biais, convergent, de y. 
Dans la pratique, on dispose d’un seul échantillon et on retient comme 
estimation de la moyenne théorique y la moyenne x de l’échantillon. 


Estimation ponctuelle non biaisée d’une variance 


Théorème 


n—l ; 
AUDE + 


V, est donc un estimateur biaisé de 0°. Pour obtenir un estimateur non 


biaisé on considère S2 = V.. Ces deux estimateurs sont conver- 
n 


gents. 
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Dans la pratique, on dispose d’un seul échantillon et on retient comme 
estimation de la variance théorique o? la variance estimée : 


n 


1 n 1 À 
2 Lu 2 — 2 _ y 
=— > &-N=— D. 6) 


i= 


On estime aussi © par s, bien que cette estimation soit biaisée. 
Attention aux notations choisies selon les critères : en grec ce qui 
concerne la population, en latin ce qui concerne l’échantillon ; et l’écri- 
ture la plus simple pour la notion la plus importante. 

Certains auteurs notent s2 la variance de l’échantillon au lieu de v, ici. 
2 


Remarquez que s Ve. 


n—1 


Avec une calculatrice élémentaire, on obtient directement s avec la touche S, ou 
6}_4- Dans ce cas, n'oubliez pas d'élever au carré pour avoir s?. 


8.4 ESTIMATION PONCTUELLE D'UN POURCENTAGE 
Notations 


Si la population est formée d’individus ayant ou non un caractère A, on 
définit la variable aléatoire F qui prend pour valeurs les fréquences ob- 
servées de À sur des échantillons de taille n, supposés tirés avec remise. 
Soit p la probabilité pour qu’un individu, pris au hasard dans la popula- 
tion, présente le caractère A. C’est p qu’il s’agit d’estimer. 


Estimation ponctuelle non biaisée d’un pourcentage 


Théorème 


PU?) 
E(F)=p 3 VE =: 
F est donc un estimateur sans biais, convergent, de p. 
Dans la pratique, on dispose d’un seul échantillon et on retient comme 
estimation de la proportion théorique p la fréquence f de l’échan- 
tillon. 
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8.5 ESTIMATION D'UN POURCENTAGE 
PAR INTERVALLE DE CONFIANCE 


Principe d’un intervalle de confiance 


Soit p la fréquence d’apparition d’un caractère À dans une population et 
f la fréquence d’apparition du même caractère dans un échantillon de 
taille ñn. On sait que f est une estimation ponctuelle non biaisée de p. 
Mais quelle confiance peut-on accorder à cette estimation ? 

On répond à cette question en choisissant un nombre à €]0,1[ et en 
déterminant un intervalle ]a,b[ tel que l’on ait la probabilité a de se 
tromper en affirmant que p appartient à cet intervalle. 

L’intervalle obtenu est dit intervalle de confiance de p au coefficient de 
risque &, ou au coefficient de sécurité 1 — a. 

La construction d’un intervalle de confiance consiste à introduire une 
variable aléatoire dont on connaît la distribution de probabilité. 


Intervalle de confiance de p 


nF, nombre d'individus ayant le caractère À dans un échantillon de taille 
n, Suit la loi binomiale B(n,p). On peut en déduire un intervalle de 
confiance de p par cumul de probabilités élémentaires (avec un ordina- 
teur). 

Si on peut approximer B(n,p) par une loi normale, alors 


Pas 
DER approximativement la loi W(0,1). 


[p( — p) 
n 


On peut donc dire (au risque «) que : 


re ne PAP) 
n n 


Pour expliciter les bornes, deux points de vue sont possibles. 


> Remplacer p par f, ce qui donne l'intervalle de confiance : 


L= = 
es. Le D FLE nr 


> Estimer sans biais p(1 — p), ce qui donne l'intervalle de confiance : 


. A D Fe nie 
n—l 


1f 


n—1 
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Mais comme n est supposé grand, il s’agit d’une différence sans consé- 
quence. 


8.6 ESTIMATION D'UNE MOYENNE 
PAR INTERVALLE DE CONFIANCE 


Cas d’une population gaussienne (c connu) 


£ 3 : ns : (4 
Si X suit une loi normale, alors X suit la loi normale W (a, ) 

n 
Pour un risque « donné, on lit l’écart réduit z, dans la table 2 et on peut 
affirmer, avec un risque à de se tromper, que : 


+ 
—Zx < © < Za 


Va 


soit : 


€ [X —Z L X TZ - 
H a Vn , T a Vn , 
Cas d’une population gaussienne (c inconnu) 
XL 
S 


de 


La variable aléatoire T = suit la loi de Student à v =n—1l 


degrés de liberté. 
Pour un risque «donné, on lit le nombre f,, dans la table 3 (en ligne le 
degré de liberté et en colonne «) et on peut affirmer (au risque «) que : 


S S 
E [X—4 —,X+is —|. 
d F NT El l 


Lorsque le nombre de degrés de liberté tend vers l'infini, la fonction de répartition 
n. de la loi de Student tend vers celle de la loi normale centrée réduite. Pour & donné, 
& tend donc vers u. C'est ce qui explique la présence de la ligne donnant uw, en 
bas de la table qui donne &. 
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Cas d’une loi quelconque et d’un grand échantillon 
X—y 
S 
Va 
loi normale centrée réduite. L’intervalle de confiance de y (au risque «) 

s’écrit donc : 


Sin > 30, la variable aléatoire U — suit approximativement la 


Fu ireu 


8.7 ESTIMATION D'UNE VARIANCE 


ne. 


PAR INTERVALLE DE CONFIANCE 


Théorème. Si X suit une loi normale, la variable aléatoire 
7m = 


1 
* = S? suit la loi du y? (lire khi-deux) à v = n — 1 degrés de 


= 
liberté. 


Une loi du x? est une loi de probabilité continue dont la densité est nulle 
pour x < 0, et dépend d’un paramètre appelé nombre de degrés de liber- 
té (ou degré de liberté, ou d.d.L.) ; voir chap. 10 pour l’allure des gra- 
phiques des densités. 


Utilisation sir < 31 


Pour « donné, on détermine les 
nombres a et b tels que 


PY<a)= 5e P(Y>b)= 


DIR 


Figure 8-1 


Les nombres a et b se lisent dans la table 4. On prend la ligne correspondant au 
degré de liberté, soit ici n — 1.Pour la colonne, regardez bien la légende graphique 
de la table : il s'agit de la surface à droite. Donc pour « = 0,05 (choix le plus clas- 
sique), vous lisez b dans la colonne 0,025 et a dans la colonne 0,975 (puisque la sur- 
face totale est égale à 1). 


La seule valeur connue de S2 étant s2, on obtient comme intervalle de 
confiance de 0? au risque à : 
(n—1)s2 (n—1)s5? 
ns: 
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Utilisation sir — 31 


Le théorème cité précédemment est vrai quel que soit n. Mais les tables 
du x? s’arrêtent habituellement au degré de liberté 7 = 30. On ne peut 


donc pas les utiliser si n > 31. Mais, en l’absence d’ordinateur, on 
dispose du théorème d’approximation qui suit. 


Théorème. Si Y est une variable aléatoire qui suit une loi du x? à v 
degrés de liberté et si v > 30, alors la variable aléatoire 


Z = V2Y — /2v — 1 suit à peu près la loi réduite W (0,1). 


Utilisation 


2 = DS 
ee 
T 


Après avoir choisi le risque &,on lit dans la table 2 la borne v, tel que 
P(—za < Z < za) = 1 — «à et on en déduit l’intervalle de confiance de 


Ici on a : Z — 


o? : 
2e | 2(n — 1)5? 2(n — 1)5? | 
(ox ; : 
(On 34e) (V2n-3=<P 
F Estimation d’un paramètre 
par la méthode du maximum de vraisemblance 
+ Principe 


Soit X une variable aléatoire, définie sur la population, de densité f 
dépendant d’un paramètre 0 à estimer. 

On dispose d’un échantillon de taille n dont les valeurs observées 
Sont : X1,...,Xn. 

La fonction L : 


0+> L(O) = [ [ f(x.0) = F(x1.0) x +: x f(an.0) est dite fonc- 
i=1 


tion du maximum de vraisemblance. 

La méthode du maximum de vraisemblance consiste à choisir comme 
estimation de © la valeur % qui rend L maximale, c’est-à-dire qui 
vérifie (en supposant L deux fois continâment dérivable) : 


dL dL 
— (80) =0 et —-(à 0. 
qo Po) e ag Po) < 
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+ Remarques 


— En situation expérimentale, cette méthode nécessite l’emploi d’un 
ordinateur. 

— Pour certains paramètres, l’estimation par le maximum de vrai- 
semblance peut conduire à des résultats différents que l’estima- 
tion non biaisée. 

— La méthode peut se généraliser à l’estimation simultanée de plu- 
sieurs paramètres. 

— La fonction L étant en général strictement positive, on peut 
maximiser In L, ce qui est équivalent à maximiser L. 


* Exemple 

— Énoncé 

On considère une population sur laquelle est définie une variable aléa- 
toire X qui suit une loi de Poisson de paramètre À. Les valeurs prises 
par X sur un échantillon de taille n sont x1,...,x, et ces nombres 
appartiennent à N puisqu'il s’agit d’une loi de Poisson. 

Comme il s’agit d’une loi discrète dépendant d’un seul paramètre À, 
la fonction du maximum de vraisemblance s’écrit : 


LA) = P(X = x1) x ++: x P(X = x). 
Déterminer par la méthode du maximum de vraisemblance une esti- 


mation de À. 


— Solution 
LU 1 DU À +. +an 

LD) = —e À x... x — e À = 6222222 . D'où: 
Xi! X,! Xe xl 


In L(X) = -nÀ + Gi +224) mA Ÿ iIn(x!) 
i=1 
D 
TRES “es 
d’'InZ Xy+e+x 
À) = 
“Fr X 


Poe etre 


n 


din L d'InZL 
10) =0 et ——(À 0. 
dx (Ao) eee (A0) < 


L’estimation de Àpar la méthode du maximum de vraisemblance est 
donc la moyenne de l’échantillon étudié. 


on à 
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@ MOTS-CLÉS 


> Estimation ponctuelle 
> Estimation non biaisée 


> Intervalle de confiance 


EXERCICES 


8-1 On considère un échantillon de 169 brebis de race Ile-de-France. 
Ces brebis ont été mises en lutte. On a obtenu 108 brebis pleines. 
Donnez un intervalle de confiance à 95 % du taux f de fertilité de cette 
race. t désigne le rapport du nombre de brebis pleines au nombre total de 
brebis. 


8-2 Pour une certaine vaccination, on sait, par des études antérieures, 
que le pourcentage d’échecs est compris entre 10 et 15 pour cent. 

On prépare une expérience pour connaître à +1 (en %) le pourcentage 
de sujets non immunisés, en acceptant un coefficient de risque 
a = 0,05. 

Sur combien de sujets, au minimum, l’observation doit-elle porter ? 


8-3 À la veille d’une consultation électorale comportant deux candidats, 
on a interrogé 100 électeurs constituant un échantillon représentatif. 
58 d’entre eux ont déclaré avoir l'intention de voter pour le candidat 
Dupont. 


a) Indiquez, avec une probabilité de 0,95, entre quelles limites se situe la 
proportion du corps électoral favorable à Dupont au moment du sonda- 
ge. Peut-on en déduire, avec la même probabilité de 0,95, que Dupont 
serait élu si les opinions ne se modifiaient pas. 


b) Avec une même fréquence observée d’électeurs favorables à Dupont, 
quelle devrait être la taille minimum de l’échantillon pour pouvoir affir- 
mer, avec un risque de 5 %, que Dupont serait élu ? 


8-4 Les données suivantes ont été obtenues sur des échantillons d’indi- 
vidus d’une région d’Europe. Le caractère étudié est la masse du cerveau 
(en g) pour des sujets de 20 à 49 ans. 
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Hommes 

centres 1170 | 1220 | 1270 1320 | 1370 | 1420 | 1470 | total 
des classes 

effectifs 5 36 45 50 61 49 19 265 
Femmes 

centres 1070 | 1120 | 1170 | 1220 | 1270 | 1320 | 1370 | total 
des classes 

| effectifs 12 22 45 54 52 20 10 215 


Déterminez un intervalle de confiance au risque de 1 % : 
a) pour la moyenne de la population des hommes ; 
b) pour la moyenne de la population des femmes. 


8-5 On a mesuré le poids de raisin par souche sur 10 souches prises au 
hasard dans une vigne. On a obtenu les résultats suivants (en kg) : 


2,7:3,2:3,6:4,1:4,3:47:54:5:90:6:5:6,9. 


On suppose que le poids de raisin par souche suit une loi normale au 
niveau de la vigne. 

a) Donnez un intervalle de confiance de la moyenne de la population au 
risque de 0,05. 

b) Donnez au risque de 5 % un intervalle de confiance de la variance, 
puis de l’écart type, de la population. 


8-6 Sur une parcelle de soja, on a mesuré la hauteur en cm de 100 plan- 
tes à l’âge de 6 semaines. Les résultats obtenus sont les suivants : 


hauteurs! 36 37 38 39 40 41 
effectifs 6 11 26 32 14 11 


Dans l'hypothèse d’une population gaussienne, déterminez un intervalle 
de confiance de la variance de la population, au coefficient de sécurité 
0,95. 


SOLUTIONS 


8.1 Le taux de fertilité { correspond au pourcentage théorique p de 
l’événement À « la brebis est pleine » (fécondée si vous hésitez sur le 
vocabulaire de la zootechnie). 
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On peut supposer l’échantillon non exhaustif car la population des bre- 
bis Ile de France est très importante. 
De plus, les conditions 


n=169 >30;k=108>5;: n—-k=612>5 


permettent d’utiliser une approximation par une loi normale, on obtient 
comme intervalle de confiance de f au risque à : 


1 — 1 — 
en Een 


n—1 | Ë n—1 


soit Z —=]0,56; 0,721 avec a = 0,05, u, = 1,96, f = _ - 
8-2 Sip désigne le pourcentage de sujets non immunisés après vaccina- 
tion dans la population, on veut connaître un intervalle de confiance de 
p, au risque a = 0,05, dont la demi-amplitude soit au maximum de 
0,01. 

Si ñn > 30, nous sommes dans les conditions d’approximation de 
B(n,p) par une loi normale. 


; : 1 — SE Ne 
La condition s'écrit donc : 40.05 10 2 < 0,01 (ici, il est inutile 
n 


d’estimer p). 
Sachant que 40.05 = 1,96, cette condition est équivalente à : 


n >38416p(1 — p). 


Pour p € [0,1; 0,15], la fonction p+> f(p) = —p? + p est croissante 
eton a :f(p) < f(0,15) où f (0,15) = 0,1275. 

Il suffit donc que n vérifie : n > 38 416 x 0,1275 soit n > 4899. 

Nous retiendrons 7 = 4900 en supposant que la population est de taille 
suffisante pour que le tirage puisse être assimilé à un tirage avec remise. 


Dans beaucoup de domaines, la recherche préalable du nombre d'individus 
sur lesquels doit porter l'expérience est un problème important, surtout 
quand la durée de l'observation est longue. 


8-3 a) Échantillon de taille n = 100 

Soit p la proportion du corps électoral favorable à Dupont au moment du 
sondage. L’estimation ponctuelle non biaisée de p est la fréquence 
f = 0,58 observée sur l’échantillon. Les valeurs de n et de p permet- 
tent d’approximer la loi binomiale B(n, p) par une loi normale. 
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L’intervalle de confiance de p, au risque a peut donc s’écrire : 


PACE EEUESE 
1=1f de n— I » FT Ua n—l C 


Comme à = 0,05, on a 40,05 = 1,96, d’où 1 = ]0,482; 0,677. 


La convention où l'on choisit n (voir le cours) ne modifie que très peu /. 


On a donc au moins 95 chances sur 100 pour que p soit situé entre 0,482 
et 0,677. Mais comme la borne inférieure de cet intervalle est inférieure 
à 0,5, on ne peut pas affirmer, au niveau de risque choisi, que Dupont 
serait élu. 


Ce que les journalistes appellent fourchette un soir d'élection est un interval- 
le de confiance. 

D'autre part, les instituts de sondage considèrent qu'un échantillon doit être 
de l’ordre de 1500 personnes pour donner un résultat fiable. On en est loin ici. 


b) Échantillon de taille n à déterminer 


Pour pouvoir affirmer que Dupont serait élu, il faut que la borne infé- 
rieure de l’intervalle de confiance soit supérieure à 0,5. On aura donc : 


Ds [D où f = 0,58. 


Attention, le risque « d’un intervalle de confiance 7 de p se décompo- 
se en deux risques de se tromper quand p est à l’extérieur de 7 : 


— la valeur de p est à gauche de 7 (probabilité 7 : 


— la valeur de p est à droite de 7 (probabilité + 


Ici, seul le premier cas conduit à une erreur de prévision. Et comme le 
risque accepté est de 5 %, il faut retenir & = 0,10 soit u, = 1,645. 
L’inéquation (1) conduit alors à retenir — 104. 


Si vous avez trouvé n = 103, c'est que vous avez utilisé l’autre point de vue présen- 
té en cours ; pas de problème ! 

Si vous avez trouvé n = 148 ou n = 147, c'est que vous considérez que si Dupont 
obtient 80 % des voix, il n'est pas élu ! 

Vous avez fait une erreur en ne distinguant pas les deux côtés de l'extérieur de /. 
Avec n = 104,on ne peut pas obtenir exactement f = 0, 58. mais si 60 électeurs sur 
104 se déclarent favorables à Dupont, on à f & 0,58. Il en est de même avec 
n = 103, ce qui confirme que les deux points de vue présentés en cours donnent 
des résultats très proches. 


Pis 
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8-4 a) L’échantillon constitué par les 265 hommes étudiés a pour 
moyenne x} © 1335,8 g et pour écart type estimé s, © 77,57 g. 
S'agissant d’un grand échantillon, la moyenne de la population des hom- 
mes a pour intervalle de confiance : 


. COR Sh 
X}h Za >; Xh T Za 


/Nh 1h 
Comme a = 0,01, on lit, dans la table 2, z0,01 = 2,576 et on obtient 
l'intervalle de confiance : 11323 ; 13491. 
b) L’échantillon constitué par les 215 femmes étudiées a pour moyenne 
Xf © 1219,3 g et pour écart type estimé sy; & 73,54 g. 


De même que précédemment, on en déduit l’intervalle de confiance au 
risque 1 % pour la moyenne de la population des femmes : 
11206 ; 12331. 


Mesdames, si cet exercice provoquent des ricanements désobligeants de la 
part de certains garçons, répondez que les veaux ont une grosse tête … 


8-5 L’échantillon est de taille 7 = 10. Il a pour moyenne x = 4,7 kg et 
pour écart type estimé s Æ 1,46 g. 

a) La population étant supposée gaussienne, la moyenne /4 au niveau de 
la vigne a pour intervalle de confiance au risque à : 


s s 
X—ta 5 X +ila 
F un 0 l 
où f, est une borne associée à une loi de Student à n — 1 = 9 degrés de 
liberté. 
Comme «a = 0,05, on lit, dans la table 3, #05 = 2,262 et on obtient 
pour intervalle de confiance de y : 13,65 ; 5,751. 


Si cet intervalle vous paraît bien grand, et donc la conclusion peu précise, c'est parce 


que l'information expérimentale disponible est faible puisqu'elle ne porte que sur 
10 mesures. 
| RUE n—1 
b) Dans les hypothèses énoncées, la variable aléatoire Y — = S2 
© 


suit la loi du x? à n — 1 — 9 degrés de liberté. 

On a a = 0,05. On lit dans la table 4 : 

PT Za)=0975—4a=270; PT >b)=0,025—b—=19;02;: 
P(a < Y < b) = 0,95 devient : 
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—l)s" es 
PAS Ë Se = ue )=0s 
b a 


ce qui donne des encadrements au risque 5 % : 
1,01 < o2 <7,15 puis 1,01 < o < 2,68. 


8-6 L’échantillon de taille n — 100 a pour moyenne x = 38,7 cm et sa 
variance estimée est 52 & 1,75 cm. 


7. ni 
Dans les hypothèses énoncées, la variable aléatoire Y = ——— S? suit 
Ci 


la loi du x? à n — 1 — 99 degrés de liberté. Mais les tables disponibles 
ne permettent pas de lire les nombres a et b. 

Cependant, dans ce cas, la variable aléatoire U = Y2Y — V/2n —3 suit 
à peu près la loi W(0,1). Comme a = 0,05 (puisque le coefficient de 
sécurité est 1 — «), on peut dire, au risque 5 %, que : 


—1,96 < u < 1,96 V197 — 1,96 < V/2y < Y197 + 1,96 
(V197 — 1,96) 99 ,  (V197 +1,96)? 
—> < CR < 
») o2 2 
41,35 < 9 <298. 
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9.1 Test d'une hypothèse simple contre une hypothèse simple 


9.2 Exemples d'utilisation 


> Connaître le fonctionnement général d'un test 


> Comprendre la notion de risque associé à une décision 


9.1 TEST D'UNE HYPOTHÈSE SIMPLE 


CONTRE UNE HYPOTHÈSE SIMPLE 
Objectifs 


Il s’agit de faire un choix entre plusieurs hypothèses possibles sans 
disposer d’informations suffisantes pour que le choix soit sûr. 

On met en avant une hypothèse, dite hypothèse nulle et notée (Ho). 
On souhaite vérifier si (Ho) est vraie, alors que deux hypothèses seule- 
ment sont possibles : (H5) et une hypothèse alternative (H:). 

Si on ne précise pas, (1) est le contraire de (Ho). Le test est alors bila- 
téral. 

Mais ce n’est pas toujours le cas, par exemple dans le cas d’un test uni- 
latéral. L'exemple typique est le test de l’efficacité d’un médicament. 
On a alors pour (Ho) : « le médicament n’a pas d’effet » et pour (AH) : 
«le médicament a de l’effet ». Mais l’effet ne doit pas être négatif. Un 
côté est donc interdit. 


Risques 


L'information étant incomplète, toute décision est associée à un risque. 


Pis 
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Si on décide que (Ho) est fausse, le risque de se tromper est noté « et 
s’appelle risque de première espèce. 

Si on décide que (Ho) est vraie, le risque de se tromper est noté / et 
s’appelle risque de deuxième espèce. 

Le concepteur d’un test s’intéresse à la puissance du test qui est 1 — 5. 
L'utilisateur d’un test s'intéresse au risque « et ses conclusions sont 
donc : (Ho) rejetée au risque & ; (Ho) non rejetée (ou acceptée) au 
risque @. 


Fonctionnement 


Dans chaque situation, on dispose d’un théorème dont le schéma est le 
suivant : Si (Ho) est vraie, et si on a des hypothèses de fonctionnement, 
alors une variable de décision X suit une loi théorique connue. 

On repère la valeur idéale que devrait prendre X. On choisit un risque 
(souvent 0,05) et on détermine une zone (en deux morceaux pour un test 
bilatéral comme dans le cas de la figure ci-dessous, en un morceau pour 
un test unilatéral), de probabilité «, éloignée de cette valeur idéale. 


OST 
DIR 


= 
Be 


H, rejetée Ho rejetée 


Figure 9-1 


Si la valeur prise par X appartient à cette zone critique, on décide de reje- 
ter (Ho) au risque à ; sinon on accepte (Ho). 


Les logiciels déterminent souvent le risque minimum ot pour lequel on rejette (Hb). 
Il vous reste alors à apprécier si ce risque est acceptable ou non. 


9.2 EXEMPLES D'UTILISATION 


Comparer un échantillon à une référence théorique 


L'hypothèse (H5) consiste à supposer que les différences observées sont 
suffisamment faibles pour être explicables par les hasards du tirage au 
sort. 

Il s’agit d’un test de conformité. 
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Comparer plusieurs échantillons 


L'hypothèse (H6) consiste à supposer qu’ils proviennent d’une même 
population, c’est-à-dire que les différences observées sont explicables 
par les fluctuations d’échantillonnage. 

Il s’agit d’un test d’homogénéité. 


# Risque du vendeur ; risque de l'acheteur 


En économie, le risque de première espèce « s’appelle le risque du 
vendeur, et le risque de deuxième espèce 5 le risque de l’acheteur. 
Pourquoi ? 

Un acheteur passe une commande très importante, avec des spécifi- 
cations à respecter. 

À la livraison, l'acheteur ne peut pas tout contrôler. Il analyse un 
échantillon de produits, en faisant attention au caractère aléatoire du 
prélèvement. 

En général, il n’y a pas de problème. Mais deux types de décision 
erronée peuvent apparaître : 


> Le prélèvement ne respecte pas les spécifications et la commande 
est refusée, alors qu’elle était globalement bonne [ (Ho) est décla- 
rée fausse, alors qu’elle est vraie E C’est le risque à ; il est sup- 
porté par le vendeur. 


> Le prélèvement respecte les spécifications et la commande est 
acceptée, alors qu’elle était globalement mauvaise [ (Ho) est 
déclarée vraie, alors qu’elle est fausse [P C’est le risque B ; il est 
supporté par l’acheteur. 
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Hypothèse alternative 


Hypothèse nulle 


Risque de première espèce 


YNNY 


Risque de deuxième espèce 


Z 
. 


OBJECTIFS 


à 


CHAPITRE 


Test du khi-deux (+°) 


10.1 Test de conformité : ajustement à une loi théorique 
10.2 Test d'homogénéité : comparaison de plusieurs distributions 


10.3 Test d'indépendance de deux caractères 


> Tester l'adéquation entre une distribution observée et une loi théo- 
rique provenant des lois mathématiques classiques, des lois de la 
génétique... 

> Comparer les distributions observées sur divers échantillons, sou- 
vent associés aux modalités d'un facteur étudié 

> Savoir si deux caractères qualitatifs peuvent être considérés 
comme indépendants 


10.1 TEST DE CONFORMITÉ : AJUSTEMENT À UNE LOI THÉORIQUE 


Problématique 


Il s’agit de comparer une loi théorique et une distribution expérimenta- 
le. 


On définit sur la population étudiée k événements Æ;,...,E, formant un 
système complet d'événements. Dans le modèle théorique, les probabi- 
lités de ces événements sont p;,...,p4. 


Sur un échantillon de taille n, les effectifs observés de ces événements 
sont O1,...,0y. 

Pour pouvoir confronter les observations et le modèle théorique, on cal- 
cule les effectifs théoriques, dits effectifs calculés : C; = np; (qui ne 
sont pas nécessairement des entiers) de façon à avoir le même effectif 
total dans la théorie et dans l’observation. 

Il est souvent commode de présenter ces informations à l’aide d’un 
tableau. 
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Pour comparer les O; et les C;, on calcule leur distance de façon un peu 
spéciale, la distance du x°. 


Mise en place du test 


Hypothèse (Ho) 


La distribution observée dans l’échantillon est conforme à la distribution 
théorique choisie. 


Théorème. Sous (Æo), la variable aléatoire Y prenant sur tout échan- 
tillon de taille n la valeur : 


_— > (Oi-GY 


œil C 


suit la loi du y? à v = k — 1 — p degrés de liberté où p est le nomb- 
re de paramètres qu’il faut éventuellement estimer pour connaître la 
loi théorique. 
Remarques 
> La plupart des utilisateurs exigent que l’on ait C; > 5 pour tout i. Si 
ne n’est pas le cas, il faut regrouper de façon cohérente des événe- 
ments jusqu’à ce que la condition soit réalisée. 
_ _- . ; ; O; | 
> En faisant intervenir les fréquences observées f; = — on peut aussi 
n 
écrire : 


2 (Ji — pi) 
x2 _ a 5 Gi nY l Î 
i=1 Pi 


Décision 
Le risque a de première espèce est fixé. À chaque valeur de z cor- 
respond un type de courbe pour la densité de la loi du x?. 


Pour 7 donné, la table 4 permet de lire la borne x? telle que : 
PY>x2)=a. 


> Six? > x, on rejette l'hypothèse (Ho) avec un risque « de se trom- 
per. 


> Si x? < x?, on ne peut pas rejeter l'hypothèse (Ho). 
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Figure 10-1 


10.2 TEST D'HOMOGÉNÉITÉ : 
COMPARAISON DE PLUSIEURS DISTRIBUTIONS 


Problématique 


Sur la population P, on considère un caractère qui peut prendre k valeurs 
A1,...,A4 (ou k modalités, ou k classes). On dispose de / échantillons 
Ei,...,£E) pouvant provenir de la population. 

On peut donc dire que l’on a / distributions expérimentales dont on sou- 
haite tester l’homogénéité. 

Pour tout i € {1,...,k} et pour tout j € {1,...,/}, on connaît O;; effec- 
tif observé de la valeur À; dans l’échantillon E;. 


RE. 
On note N = >» >. O;; l'effectif total des échantillons. 
j=1 i=1 


Mise en place du test 


a) Hypothèse (A5) 


Les différences observées entre les différents échantillons ne sont pas 
significatives. Les échantillons sont extraits d’une même population. 


b) Calcul des effectifs théoriques sous (Ho) 


Les / échantillons sont réunis en un seul échantillon de taille N, et la 
probabilité de À; peut alors être estimée par la fréquence sur la réunion 
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> Où 
, j—=1 S; 
des échantillons : p; = Re 
N N 
Si (5) est vraie, cette probabilité (toujours assimilée à une fréquence) 
doit se retrouver dans chaque échantillon. 


L’effectif calculé de la classe À; pour l'échantillon E; est alors : 


k 
S; T;; 
Ci; = n(30:) = Pi T; = : 


i—|1 


Les calculs sont facilités par l’utilisation d’un tableau du genre : 


A; nus A; An Ak totaux 

E; Or: 07 Ou T; 
(C1) (Ci) (Ci) 

E; Où; 0; Ok T; 
(C5) (Ci) (Ci) 

E, Or Oj Oy T 
(C1) (Ci) (Cia) 

totaux S; S; Sk N 


Quand le tableau des effectifs est construit correctement, les calculs sont méca- 
niques (mais comme ils sont fondés sur (Hb), rédigez toujours l'hypothèse nulle 
avant) : faire les totaux des lignes, des colonnes, le total général ; puis pour chaque 
case, calculez l'effectif théorique : 


total au bout de la ligne X total au bout de la colonne 


total général 


Vous reportez ce résultat dans chaque case, en le distinguant de O; qui y est déjà 
par tous les moyens à votre convenance, y compris en utilisant deux couleurs. 
Vous pouvez vérifier que, sur chaque ligne et chaque colonne, les totaux des effec- 
tifs observés et des effectifs calculés sont les mêmes. 
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Théorème. Sous l’hypothèse (Ho), la variable aléatoire Y prenant sur 
chaque échantillon de taille N la valeur : 


k 


ui y arr Ci) 


il 
suit la loi du x? à = (k — 1) (1 — 1) degrés de liberté. 


On exige en général que C;; 2 5 pour tout i et pour tout j. Si ce n’est 
pas le cas, on fait des regroupements. 


Décision 

Le risque de pue espèce « étant fixé et v étant connu, on lit dans la 
table 4 la valeur x? telle que P(Y > x?) = a. 

> Si y? > x?, l'hypothèse (Ho) est rejetée au risque «. 


> Si y? < y2, l'hypothèse (Ho) ne peut pas être rejetée. 


10.3 TEST D'INDÉPENDANCE DE DEUX CARACTÈRES 


Problématique 


Dans une population P, chaque individu possède deux caractères quali- 
tatifs À et B ayant les modalités respectives A1,...,A%et B1,...,Bi. 
Pour tout i € {1,...,k} et pour tout j € {1,...,/}, on connaît le nom- 
bre O;; Étiirioue présentant les modalités … et B;. 
1 k 
On note N = Ÿ Ÿ_ O;; l'effectif total de l'échantillon étudié. 
j=1 i=1 


Mise en place du test 
a) Hypothèse (5) 
Les deux caractères À et B sont indépendants. 


b) Calcul des effectifs théoriques sous (A5) 


Ci; est l’effectif des individus présentant les modalités À; et B; si l’hy- 
pothèse (Ho) était vérifiée. 
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On note les effectifs marginaux : 


k l 
ro et 20 
i= j= 


Sous (H5), les événements À; et B; sont indépendants et on a : 
C; Si  T; 
P(AiNB;) = P(A;) x P(B;) soit: = _ x + 


S; T; 
On a donc C;; = TN. et les calculs se présentent comme dans le cas 


précédent (test d’homogénéité) bien qu’il s’agisse d’un problème diffé- 
rent. 


Théorème. Sous l’hypothèse (Ho), la variable aléatoire Y prenant sur 
chaque échantillon de taille . | valeur : 


=D > Gr TE Ci) 


=il = 
suit la loi du x? à = (k— 1) ({ — 1)  . de liberté. 


On exige en général que C;; > 5 pour tout i et pour tout j. Si ce n’est 
pas le cas, on fait des regroupements. 


Décision 

Le risque de première espèce « étant fixé et v étant connu, on lit dans la 
table 4 la valeur x? telle que P(Y > x?) = a. 

> Si x? > x?, l'hypothèse (Ho) est rejetée au risque «. 


> Si x? < x?, l'hypothèse (Ho) ne peut pas être rejetée. 


P Définition mathématique d’une loi du y? 


X suit la loi de Pearson, ou loi du x? (lire khi-deux), à v degrés de 
liberté s’il existe variables Z1,...,2Z1,, indépendantes, qui suivent 
chacune la loi normale centrée réduite W(0, 1), et telles que : 


X=7?+...+77. 
On a: 
E(X)=v ; V(X)=2v. 
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æ MOTS-CLÉS 


> Distance du y? 

> Homogénéité 

> Conformité 

> Indépendance de deux caractères qualitatifs 


EXERCICES 


10-1 On a effectué le croisement de balsamines blanches avec des bal- 
samines pourpres. En première génération les fleurs sont toutes pour- 
pres. On obtient en deuxième génération quatre catégories avec des 
effectifs suivants : 


Couleurs pourpre rose blanc lavande blanc 


Effectifs 1790 547 548 213 


Peut-on accepter l’hypothèse de répartition  mendélienne 


(Se: cr 2 5) avec un risque & = 0,05 ? 

16 16 16 16 

10-2 On cherche à savoir si la fréquence d’une maladie est liée au grou- 
pe sanguin. Sur 200 malades observés, on a dénombré 104 personnes du 
groupe O, 76 du groupe À, 18 du groupe B et 2 du groupe AB. 

On admettra que dans la population générale la répartition entre les 
groupes est : groupe © : 47 %, groupe À : 43 %, groupe B : 7 %, grou- 
pe AB : 3 %. Que concluez-vous ? 


10-3 Des cellules vivantes sont incubées en présence d’un composé 
radioactif. La technique d’autoradiographie permet de mesurer le taux 
de radioactivité absorbé par chaque organite cellulaire. Les résultats de 
ces mesures sont alors comparés à une distribution théorique aléatoire 
simulée par ordinateur en utilisant les surfaces des organites. 

Une expérimentation conduit aux résultats suivants : 
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Organite cellulaire Taux de radioactivité 
(nombre de désintégrations enregistrées) 
Expérimental Simulé 

membrane plasmique 30 10 
vésicules hyaloplasmiques 10 10 
zone de Golgji 30 20 
reticulum granulaire 20 40 
lysosomes 10 5 
noyau 0 15 


La répartition observée pour la radioactivité est-elle le fait du hasard ? 


10-4 Une enquête effectuée auprès du comptoir de 150 coopératives 
agricoles a permis d’étudier l’arrivée dans le temps des usagers de ces 
coopératives. 

Pendant l’unité de temps, soit une heure, on a noté : 


Nombre d'usagers arrivés | 0 1 2 3 4 5 6 


Nombre de coopératives 37 46 39 19 5 3 1 


Peut-on admettre, au risque de 5 %, que la population suit une loi de 
Poisson ? 


10-5 Dans la comparaison du taux d’occupation d’un matériel coûteux 
pour un mois d’hiver (janvier) et pour un mois d’été (juillet), on dispose 
de deux échantillons, l’un de 300 observations instantanées en janvier, 
l’autre de 200 observations instantanées en juillet. 


janvier | juillet Peut-on considérer que le taux 
3 d’occupation de ce matériel est 
Occupation 240 150 Rae ne 
le même en janvier et en juillet 
Inoccupation 60 50 (a = 0,05) ? 


10-6 Les résultats de l’évolution d’une maladie M, à la suite de l’em- 
ploi de l’un ou l’autre des traitements À et B, figurent dans le tableau ci- 
dessous, qui donne le nombre de malades appartenant à chacune des 
catégories : 


Guérison |Amélioration| État stationnaire Totaux 
A 280 210 110 600 
B 220 90 90 400 
Totaux 500 300 200 1000 


Peut-on dire que les traitements À et B sont différents ? 
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10-7 À la suite du même traitement, on a observé 40 bons résultats chez 
70 malades jeunes et 50 bons résultats chez 100 malades âgés. 

Peut-on dire, au risque 10 %, qu’il existe une liaison entre l’âge du 
malade et l’effet du traitement ? 


10-8 Lors d’une étude biologique portant sur une certaine espèce de 
mollusques, on a mesuré le taux de protéines X en mg de 36 individus 
appartenant à cette espèce. On a obtenu les résultats suivants : 


X 10;1,5],11,5;3]113;4,5], 145 ;6]|16; 7,5]! 17,5 ;9] 119; 10,5] 
Nb d'individus 8 7 4 9 2 3 3 


a) Estimez la moyenne et l’écart type de la population. 
b) Peut-on admettre que le taux de protéines se distribue de façon gaus- 
sienne ? 


SOLUTIONS 


10-1 Il s’agit d’ajuster une répartition observée à une répartition théo- 
rique. C’est un test de conformité et on utilise un test du x?. 

(Ho) : En deuxième génération, on a une répartition mendelienne des 
couleurs. 

Calculs si (Ho) est vérifiée : 


Couleurs | pourpre rose |blanclavande| blanc totaux 

O; 1790 547 548 213 3098=n 
9 8 3 1 1 

" 16 16 16 16 

C=np; 1742,625 580,875 580,875 193,875 3098 

O1 — Ci} O4 — C1)? 
(he no, Cr eee 
Ci Ca 


Le nombre de degrés de liberté est = 4 — 1 = 3. 
Si à = 0,05, on lit dans la table : X5 05 = 7,81. 


Comme 7,06 < 7,81, l'hypothèse (H5)ne peut pas être rejetée au risque 
de 5 %. 


10-2 On peut comparer la répartition des groupes sanguins sur la popu- 
lation malade et la population saine. Il s’agit de la comparaison d’une loi 
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théorique (répartition sur la population saine) et d’une loi observée 
(répartition sur la population malade). On utilise un test du x?. 

(Ho) : La répartition des groupes sanguins est la même dans les deux 
populations. 

Calculs si (Ho) est vérifiée : 


Groupes sanguins O A B AB Totaux 
O; 104 76 18 2 200=n 
P: 0,47 | 0,43 | 0,07 | 0,03 1 
C=np; 94 | 86 | 14 6 200 


Comme tous les C; sont supérieurs à 5, on calcule : 
> (104-947 (76-867 (8-14 (6) 


n 94 86 14 6 
Le nombre de degrés de liberté est = 4 — 1 = 3. 


Si à = 0,05, on lit dans la table : Ne = 7,81. 


& 6,04. 


Comme 7,06 < 7,81, l'hypothèse (H5) ne peut pas être rejetée au 
risque de 5 %. Donc, sur l’étude de cet échantillon, on ne peut pas dire 
que la présence de la maladie soit liée au groupe sanguin. 


10-3 On va tester l'hypothèse (Ho) : la répartition de la radioactivité est 
due au hasard. Autrement dit, le taux de radioactivité ne dépend que de 
la surface de l’organite. 
Si (Ho) est vérifiée, il y a donc conformité entre la distribution expéri- 
mentale (observée) et la distribution simulée (calculée). Comme tous les 
effectifs calculés sont supérieurs à 5, on peut calculer la distance : 

2 2 
ne (30 _ Pa (0 _ 75. 
Le nombre de degrés de liberté est = 6 — 1 —5. 


Avec diverses valeurs de &, on lit : 0 = 11,07, XBo1 = 15,09, 
di = 20,52. Dans tous les cas, on a x? > x2. 


Même au risque minime de 0,001, l'hypothèse (Ho) est rejetée. Le 
taux de radioactivité d’un organite n’est donc pas uniquement lié à sa 
surface. 


10-4 Il s’agit d’un test de conformité entre une distribution expérimen- 
tale et une distribution théorique, que l’on réalise à l’aide d’un test du 
x?. Si X désigne la variable aléatoire étudiée, l’hypothèse nulle s’écrit : 
(Ho) : X suit une loi de Poisson P()). 
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Dans ce cas, E(X) = V(X) = À. 

du = E(X) est estimée sans biais par x = 1,48. 

V(X) = 0? est estimée sans biais par s2 & 1,58. 

Comme x et s? sont proches, l'hypothèse (Ho) n’est pas stupide et on 
peut choisir 1,5 comme estimation de À, ce qui conduit aux probabilités 
élémentaires et aux efffectifs théoriques : 


E; 0 1 2 3 4 5 > 6 


0; 37 46 39 19 5 3 1 


P; 0,2231 0,3347 | 0,2510 | 0,1255 | 0,0471 0,0141 | 0,0045 


CG 33,47 50,20 37,65 18,83 7,06 2,12 0,67 


1,5 
Onap; = P(X=1)= 15 ds) et C; = np; avec n = 150. 


il 
Les deux dernières classes ont un effectif calculé inférieur à 5. Il faut 
donc regrouper les trois dernières classes et l’événement X > 4 a pour 
effectif obervé 9 et pour effectif calculé 9,85. D'où : 

2 2 

= (37 — 33,47) so (9 — 9,85) RO.85. 
33,47 9,85 

Il reste 5 événements et un paramètre a été estimé. Le nombre de degrés 
de liberté est donc = 3. 
Sio=0,05.on1it:x9 5; = 7,81. 


Comme 0,85 < 7,81, l'hypothèse (Ho)ne peut pas être rejetée. 


10.5 Il s’agit de comparer les distributions observées sur deux échan- 
tillons. 

(Ho) : le taux d'occupation est le même en janvier et en juillet. Les dif- 
férences observées sont explicables par les fluctuations d’échantillon- 
nage. 


Calculs 
Événements Occupation Inoccupation Totaux 
Échantillons observés | calculés | observés | calculés 
janvier 240 234 60 66 300 
juillet 150 156 50 44 200 
Totaux 390 110 500 
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Comme tous les effectifs calculés sont supérieurs à 5, on peut calculer la 
distance : 
_ (240-234) (150-156) (60-66): (50 — 44) 
CDR SAN CS EE nn 
& 1,75. 
Le nombre de degrés de liberté est 7 = (2—1)(2—1)=1. Si 
= 0,05, onlit 155: — 484; 


Comme 1,75 < 3,84, l'hypothèse (Ho)ne peut pas être rejetée. 


10-6 Avec un test d’homogénéité du x?, on va tester l'hypothèse nulle : 


(Ho) : les traitements À et B ont des effets identiques. 
Calculs 
Pour varier, les effectifs calculés dans chaque case seront mis en rouge. 


Événements| Guérison Amélioration| État stationnaire Totaux 
Traitement 
A 280 210 110 600 
300 180 120 
B 220 90 90 400 
200 120 80 
Totaux 500 300 200 1000 


Comme tous les effectifs calculés sont supérieurs à 5, on peut calculer la 
distance : 
> - @80=300) (080) 

ONE RUE 
Le nombre de degrés de liberté est  — (3 — 1) (2 — 1) = 2. 
Si a = 0,05, on lit X5 05 = 5,99. 
Si a = 0,001, on lit Ro = 13,82. 
Dans tous les cas, on a x, > x? et (Ho) est rejetée même au risque très 


faible de 0,001. 
On peut donc être persuadé que les traitements ont des effets différents. 


% 17,92 


10-7 On va tester l’hypothèse nulle : 

(Ho) : les effets du traitement sont indépendants de l’âge du malade. 

Il s’agit alors d’un test du x? comme test d’indépendance de deux carac- 
tères qualitatifs. Mais on peut aussi considérer que les malades jeunes et 
les malades âgés conduisent à deux échantillons dont on teste leur homo- 


Solutions 


généité. Le point de vue est légèrement différent, mais les calculs sont 


les mêmes. 


Les effectifs calculés dans chaque case seront mis en rouge. 


Résultats Bons Mauvais Totaux 
âge 
jeunes 40 30 70 
37,06 32,94 
âgés 50 50 100 
52,94 47,06 
totaux 90 80 170 


Comme tous les effectifs calculés sont supérieurs à 5, on peut calculer la 


distance : 

1 _ (40— 37,06) (50— 47,06) | 

Xe INR TET ES 0,84. 
37,06 47,06 

Le nombre de degrés de liberté est 7 = (2 — 1)(2—1) = 1. 


Pour à = 0,10, on lit nn — 2,71" 


Comme 0,84 < 2,71, on ne peut pas rejeter (Ho) au risque de 10 %. 
On accepte donc l’hypothèse qu’il n’existe pas de liaison entre l’âge du 
malade et l’effet du traitement. 


Cet exercice peut aussi se faire en comparant deux fréquences observées (voir 
ex. 11.4). 


10-8 a) Moyenne et écart type estimés 
En assimilant chaque clase à son milieu, on obtient comme estimation 
de la moyenne y de la population : X & 4,21, et comme estimation de 
l’écart type o de la population : s & 2,86. 


b) Ajustement à une loi de Gauss 


(Ho) : Le taux de protéines X se distribue de façon gaussienne. 

En utilisant les estimations précédentes, on va utiliser un test du x? pour 
juger la conformité entre la distribution observée et la loi normale 
N(4,21; 2,86). 

Comme l’univers de la loi théorique est R, les classes sont légèrement 
modifiées. D’autre part, comme d’habitude on ramène tous les calculs 


: X—x 
concernant X à la variable centrée réduite U = 


qui suit W(0; 1). 
s 
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Classes de X Classes de U Pi C; O; 
]-c :1,5] ]-c ;-0,95] 0,1711 6,16 8 
11,5;3] 1-0,95 ; -0,42] 0,1661 5,98 7 
3;45] ]-0,42 ; 0,10] 0,2026 7,29 4 
14,5;6] 10,10 ; 0,63] 0,1959 7,05 9 
6;7,5] 10,63 ;1,15] 0,1392 5,01 2 
17,5;9] 11,15 ;1,67] 0,0776 2,79 3 

19 ;+oof 11,67 ; + 0,0475 1,71 3 


Pour le calcul des p; revoyez si nécessaire le chapitre 7 ; par exemple : 


P(3 < X < 4,5) = P(-0,42 < U < 0,10) = (0, 10) - D(-0, 42) 
= 0,5398 - 0, 3372 = 0,2026. 


€ 


Les deux dernières classes ayant des effectifs calculés inférieurs à 5, on 
regroupe les trois dernières classes, ce qui donne : 


16 ;+co [ | 10,63 ; + [ | 0,2643 | 9,51 | 8 


On peut alors calculer la distance : 
0 6,16)? | AE 9,51)? 

CCE ICT ON TE 0 

Le nombre de degrés de liberté est v = 5 — 1 — 2 = 2 car il a fallu esti- 

mer deux paramètres. 

Pour « = 0,05, on lit Nous = 5,99. 


On constate que X? < x2 05+ Donc, au risque %, on ne rejette pas (Ho) 


& 2,99, 


et on peut admettre que le taux de protéines se distribue de façon gaus- 
sienne. 


D 


Comparaison 
de deux proportions 


LU 
ce 
E 
à 
ä 
L 
VU 


11.1 Comparaison d'une proportion expérimentale et d'une proportion 
théorique 


11.2 Comparaison de deux proportions expérimentales 


Z 
: 


11.3 Comparaison de deux proportions expérimentales (échantillons 
appariés) 


> Comparer la fréquence observée d'un événement bien précis à sa pro- 
babilité théorique 


> Comparer les pourcentages observés d'un événement bien précis dans 
deux situations expérimentales 


OBJECTIFS 


> Choisir entre un test bilatéral et un test unilatéral 


11.1 COMPARAISON D'UNE PROPORTION EXPÉRIMENTALE 
ET D'UNE PROPORTION THÉORIQUE 


Problématique 


Dans une population, on étudie un caractère statistique à deux modalités 
A et À. Chaque individu présente, ou non, la modalité A. 

Soit 7 la proportion (ou la fréquence, ou le pourcentage) d'apparition de 
A dans la population, et p le pourcentage d’apparition de À observée 
dans un échantillon de taille n. 

Le problème est de savoir si l’on peut considérer l’échantillon comme 
représentatif de la population, c’est-à-dire si la différence entre les 
valeurs numériques p et 7 est explicable par les aléas dus à l’échan- 
tillonnage. 

Notons P la variable aléatoire qui prend la valeur p sur chaque échan- 
tillon de taille n (n est fixé et p varie d’un échantillon à l’autre). 
L'hypothèse nulle (H5) peut s’écrire : 

La fréquence observée p est conforme à la fréquence théorique +. 
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Cas d’un grand échantillon 


Théorème. Supposons que l’on puisse approximer la loi binomiale 
B(n,T) par une loi de Gauss, soit selon la convention retenue ici 
1 > AÙ, r > 5 Et Al = x) > 5, 


PP = 1% 


[Tr (1 — 7) 
n 


Alors, sous l’hypothèse (Ho), la variable aléatoire Z = 


suit à peu près la loi normale centrée réduite N/(0,1). 


a) Calculs 


On calcule la valeur prise par la variable aléatoire du théorème, soit le 
pP—T 


ere 
n 


b) Décision dans le cas d’un test bilatéral 


nombre z = 


Dans ce cas (le plus courant), l'hypothèse alternative (H,) est le contrai- 
re de (Ho), c’est-à-dire que la différence entre p et x est trop importan- 
te pour être explicable par les fluctuations d’échantillonnage. 
On lit dans la table 2 le nombre z, tel que P(IZ| > za) = «à. 


> Siz €] —Za,zal, l'hypothèse (Ho)ne peut pas être rejetée. 


> Siz #]—724,74l, on écarte (Ho)avec une probabilité & de se trom- 
per. 


c) Décision dans le cas d’un test unilatéral 


Supposons que la fréquence p observée sur l’échantillon soit a priori 
supérieure (ou inférieure) à la fréquence théorique 7 (par exemple, un 
médicament peut avoir une influence bénéfique ou être sans effet, mais 
il ne peut pas avoir un effet néfaste). Le signe de z est donc connu a prio- 
ri. La zone de rejet de (Ho) est alors un intervalle situé d’un seul côté 
par rapport à 0. 

Si, par exemple, z > 0, on lit dans la table 2 le nombre z, tel que 
P(Z > va) = a,soit P(|Z| > z2a) = à. 


> Siz < Z24, l'hypothèse (H5) ne peut pas être rejetée. 


> Siz > 224, On écarte (H5) avec une probabilité à de se tromper. 
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Ho Ho 
rejetée rejetée 
Figure 11-1 
D 
i C4 
o| % é 
Ho rejetée 
Figure 11-2 


Vous pouvez aussi faire un test du y2 avec les événements A et À, les effectifs ob- 
servés k = nfet n — k,et les effectifs théoriques np et n — np. 

Mais les calculs sont plus longs, et, sans ordinateur, vous ne pouvez pas chercher la 
valeur frontière de & qui permet de rejeter (Ho), ni réaliser un test unilatéral. 


11.2 COMPARAISON DE DEUX PROPORTIONS EXPÉRIMENTALES 


(échantillons indépendants) 
Problématique 


Dans deux populations P, et P2, on étudie un caractère statistique à deux 
modalités A et À. Chaque individu présente, ou non, la modalité A. 

Les fréquences d’apparition de A dans les populations P, et P; sont les 
nombres (inconnus) x] et 72. 

De P, et P, on extrait deux échantillons E et E), de tailles respectives 
n et n>, dans lesquels les fréquences d’apparition observées de A sont, 


; ki k2 
respectivement, p, = — et p2 = —: 
n] n2 


Le problème est de savoir si la différence entre p1 et p2 est significative, 
ou au contraire explicable par les hasards du tirage au sort. 

Notons P. et P) les variables aléatoires qui prennent les valeurs p1 et pa 
sur chaque échantillon de tailles ñn1 et n2. 
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L'hypothèse nulle peut s’écrire : 


(Ho) : la différence entre p1 et p2 n’est pas significative ; 
les valeurs théoriques sont égales, soit : Ti = 72 =. 


Cas de grands échantillons 


Théorème. Supposons que l’on puisse approximer les lois binomia- 
les par des lois normales, les conventions choisies étant : 

O0 m0 np Sr 0e np) = Sver-S, 
LA) 0e 

alors, sous l’hypothèse (Ho), la variable aléatoire : 


Pi = 5 


Z = 
= “ m1 — 7) 


ni n2 


suit à peu près la loi normale centrée réduite. 


a) Estimation de x 


Sous l’hypothèse (Ho), on peut réunir les deux échantillons. On peut 
estimer 7 par la fréquence observée sur cette réunion : 


ki+k  mfi+nf 


T = = 


ni + ni +m 


et le théorème reste inchangé en remplaçant x par T. 


b) Calculs 


On calcule la valeur prise par la variable aléatoire du théorème : 


_ P1 — p2 | 
LL pi il 
fre 0 … 


c) Décision dans le cas d’un test bilatéral 


Dans ce cas (le plus courant), l'hypothèse alternative (H,) est le contrai- 
re de (Ho), c’est-à-dire que la différence entre p, et p2 est trop impor- 
tante pour être explicable par les fluctuations d’échantillonnage. 

On lit dans la table 2 le nombre z,, tel que P(IZ| > za) = «. 


> Siz El] —Za,zal, l'hypothèse (Ho)ne peut pas être rejetée. 
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> Si z #]—Za,zal, on écarte (Ho) avec une probabilité & de se 
tromper. 


d) Décision dans le cas d’un test unilatéral 


Si a priori mr < m2 est impossible, l'hypothèse alternative est Ti > m2. 
Dans ce cas, on a toujours z > 0. 

On détermine alors v, tel que P(Z > v,) = à, ce qui correspond à 
Va — Z2a- 

> Siz < 22, l'hypothèse (H5) ne peut pas être rejetée. 

> Siz > 22, on rejette (Ho) avec un risque d’erreur «. 


& Pour comparer deux fréquences expérimentales, on peut aussi utiliser un test 
€ d'homogénéité du . 


11.3 COMPARAISON DE DEUX PROPORTIONS EXPÉRIMENTALES 
(échantillons appariés) 


Problématique 


Il s’agit encore de comparer deux proportions relatives à une modalité A. 
Mais ici, les modalités A et À sont appariées. 

Les paires concordantes AA et AA ne fournissent aucune information 
sur la différence des populations. On s’intéresse aux paires discordan- 
tes : 


AA observée a fois ; 
AA observée b fois. 


Le test revient à comparer la proportion observée de AA (par exemple), 


1 
soit p = an proportion théorique 7 = — qui découle de H. 
a +b 2 


Calculs 


Dans les hypothèses d’approximation d’une loi binomiale par une loi 
normale, on calcule : 
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Décision 
Comme d’habitude quand on utilise la loi normale centrée réduite. 


Remarque 


Comme Ÿ = Z? suit la loi du y? à 1 degré de liberté, on peut aussi uti- 


: (a — by? 
liser un test du y? avec y = 7? = =. 
| d a+b 
po Comparaison de deux fréquences observées 


dans le cas de petits échantillons : test de Fisher 


Avec les notations déjà utilisées, les effectifs connus peuvent se pré- 
senter en tableau : 


A A totaux 
Ef k; m—k n; 
E ko M—k No 
totaux k n—k n 


avec ñn = n1 + n2 et k = ki + ki. 


; de ki 
On teste (Ho) : pas de différence significative entre p1 = — et 
n1 


ki 

DI= SX 
n2 
Sous (AH), en supposant les totaux fixes, la configuration du tableau 
précédent a pour probabilité : 
niln!k!(n—k)! 
Hlbl(m-k)(m-b)inl 

Pour réaliser le test, on cumule les probabilités des configurations (à 
totaux inchangés) au moins aussi défavorables à (H5) que l’observa- 
tion et on compare ce cumul au risque «. 
Si la probabilité cumulée est inférieure à ox, on rejette (Ho). 
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æ MOTS-CLÉS 


> Comparaison à une probabilité 


> Comparaison de deux fréquences dans la situation tout ou rien (l'évé- 
nement étudié a lieu ou n'a pas lieu) 


EXERCICES 


11-1 Dans la population française, le pourcentage d’individus dont le 
sang est de rhésus négatif est de 15 %. 

Dans un échantillon représentatif de 200 Basques français on observe 
que 44 personnes sont de rhésus négatif. Peut-on dire, au risque 
a = 0,05, que les Basques diffèrent du reste de la France en ce qui 
concerne le caractère rhésus ? 


11-2 Dans une population, le pourcentage d'individus présentant des 
rides est de 25 %. Sur 200 personnes ayant suivi un traitement anti-rides, 
on a observé que 40 personnes avaient des rides. 

Au risque a = 0,05, peut-on dire que le traitement est efficace ? 


11-3 On sait qu’une maladie atteint 10 % des jeunes ovins d’une région 
donnée. Un chercheur a expérimenté un traitement sur un échantillon de 
n agneaux. Il a recensé alors 5 % de malades. 

Déterminez la valeur minimale de n qui permette au chercheur de 
conclure à l’efficacité du traitement au risque & = 0,05. 


11-4 Reprenez les données de l'exercice 10-7 (test du x? ; âge du 
malade et effet du traitement) et fournissez une deuxième solution. 


11-5 Dans des services de maladies infectieuses, on observe des conta- 
minations parmi les 2 100 employés qui constituent le personnel infir- 
mier. On impose à 50 de ces personnes, tirées au hasard, des mesures de 
protection particulières et l’on observe alors chez elles, pendant une cer- 
taine période, 7 contaminations. 

On choisit au hasard 50 employés non protégés. Pendant la même pério- 
de, on note dans ce groupe 11 contaminations. 

À quel risque a peut-on conclure à l’efficacité du dispositif de protec- 
tion ? Commentez le résultat. 
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11-6 On a obtenu les résultats suivants après avoir suivi pendant 20 ans 
un groupe de 200 sujets fumeurs et un groupe de 200 sujets non fumeurs. 


Non fumeurs Fumeurs 
apparition d’un cancer 20 40 
pas de cancer 180 160 


Utilisez deux tests différents pour décider, au risque 5 %, si les différen- 
ces observées sont significatives ou non. 


@ Pour être expérimentalement correct, il faudrait préciser la nature du cancer 
étudié et définir précisément le mot fumeur. 


11-7 Une année, le taux de réussite nationale au baccalauréat dans une 
série donnée a été de 67 %. 

Tous les tests qui suivent seront réalisés avec à = 0,05. 

a) Dans un centre d’examen À, il y a eu 216 reçus sur 300 candidats pré- 
sentés. Les résultats de ce centre sont-ils conformes aux résultats natio- 
naux ? 

b) Dans un centre d’examen B de la même ville, il y a eu 128 reçus sur 
200 candidats. Les résultats des centres A et B sont-ils significativement 
différents ? 


11-8 On a réalisé une étude de la pratique du sport avant et après l’ac- 
couchement. On a obtenu les résultats suivants : 

Nombre de femmes faisant du sport avant et faisant du sport après : 25. 
Nombre de femmes ne faisant pas de sport avant et ne faisant pas de sport 
après : 35. 

Nombre de femmes faisant du sport avant ne faisant pas de sport après : 
25: 

Nombre de femmes ne faisant pas de sport avant et faisant du sport 
après : 15. 

On désire savoir si l’accouchement modifie la pratique du sport. 


SOLUTIONS 


11-1 Il s’agit d’un test de conformité entre le pourcentage observé 
p = 0,22 et le pourcentage théorique rx = 0,15. 

(Ho) : la différence observée entre p et 7 n’est pas significative ; elle est 
explicable par les aléas de l’échantillonnage. 
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On choisit un test bilatéral car il n’y a pas de raison a priori d’avoir 
P>T. 
Comme 7 = 200 et m = 0,15, on peut approximer la loi binomiale 


B(n,T) par une loi de Gauss. 


0,22 — 0,15 
Dans ce cas, on calcule : z = —— = 2,71. 
0,15 x 0,85 


200 
Si @ = 0,05, on lit z, = 1,96. Comme z &] — z,,z,[, on écarte (H5) et 
on conclut, au risque 5 %, que les Basques diffèrent du reste de la France 
en ce qui concerne le caractère rhésus. 


11-2 Il s’agit d’un test de conformité entre la fréquence observée 
p = 0,20 et la fréquence théorique x = 0,25. 

(Ho) : la différence observée entre p et 7 n’est pas significative. 
Comme a priori on doit avoir p < 7 (sinon il ne s’agit plus d’un traite- 
ment antirides), on choisit un test unilatéral. 


Comme les conditions d’approximation de B(n,T) par une loi normale 
0,20 — 0,25 1.63 


0.25 x 0,75 
V 200 


Pour & = 0,05, le nombre v, tel que P(Z < —v,) = 0,05 correspond à 
P(IZI > va) = 0,10. On lit donc v0,05 = 20.10 = 1,645. 

On constate que z > —v0,05, donc l’hypothèse (H6) ne peut pas être 
rejetée. 

Au risque 5 %, on ne peut pas dire que le traitement est efficace. 


sont satisfaites, on calcule : z — 


@ Cette expérience n'a pas permis de mettre en évidence l'efficacité du traitement. 
7 Mais on ne sait pas si c'est à cause du traitement, ou si c'est l'expérience qui a été 
conduite sur un nombre trop limité de personnes. 


11-3 Il s’agit d’un test de conformité entre la fréquence théorique 
7 = 0,10 et la fréquence expérimentale p = 0,05. 
(Ho) : le traitement n’est pas efficace. 


En supposant que n >30, sous (Ho), la variable aléatoire 


P—-7rT ; ; ; 
Z = ———— suit la loi normale réduite. 


Ir (1 — 7) 
n 


D'autre part, on a nécessairement p < 7 (si le traitement augmentait le 
pourcentage des malades, ce serait un curieux chercheur !). Il s’agit donc 
d’un test unilatéral. 
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Le nombre v, tel que P(Z <—v,) = a est va = Z2a, soit ici 
V0,05 = Zo,10 = 1,645. 

Le chercheur peut conclure à l’efficacité du traitement au risque 5 %, 
c’est-à-dire rejeter (Ho)si z < —V0.05, Soit : 


— 0,1 /0,1 
0,05 — 0,10 te — 0,1 x 0,9 < 0,05 a 
[0,1 x 0,9 n 1,645 
n 


La valeur minimum de n est de 98. 


@ La valeur minimum obtenue concerne le nombre d'observations disponibles 
après expérience. Pour se prémunir de pertes pendant l'expérience, le cher- 
cheur lancera son expérience avec un nombre un peu plus élevé, par exemple 


100. 

11-4 On peut comparer les deux fréquences observées p1 = et 
50 

P2 = 100 à 


Pour ceci, on va tester l’hypothèse nulle : (Ho) m1 = m2 = T, c’est-à- 
dire : les effets du traitement sont les mêmes dans la population des 
malades jeunes et dans la population des malades âgés. 
Comme on n’a pas de raison a priori de privilégier une population, on 
choisit un test bilatéral. 

40 + 50 9 


70+100 17 
Les conditions d’approximation des lois binomiales par des lois norma- 
les sont vérifiées. On calcule donc : 


Sous (Ho), x est estimé par 7 — 


4 
. = —0,5 
_— P1 — P2 _ 4 & 0,92. 


en re RETIRE 
= =; >, X | 
TOM Ge TETE GHMETT 


Pour a = 0,10, on lit z0 10 = 1,645. Comme z €] — Z010,Z0.10l, on ne 


rejette pas (Ho) au risque choisi de 10 %. 


La conclusion est la même que dans la solution de l'exercice 10-7. 
Mais si la question était : « avec quel risque minimum peut-on dire qu'il existe 
une liaison entre l’âge du malade et l'effet du traitement ? », alors, en l'absen- 
ce d'ordinateur, il fallait choisir la comparaison de fréquences. En effet, comme 
20,35 = 0,985 et Z0, 36 = 0, 915, la réponse est 36 % et il vous reste à trouver 


ce risque beaucoup trop élevé pour une telle affirmation. 
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11-5 Il s’agit d’une comparaison de deux pourcentages observés de 
l'événement À « être contaminé ». On dispose des informations : échan- 
tillon E; (avec le nouveau dispositif de protection) 


ni = 50; ki =7; p1 = 0,14 


échantillon E2 (sans le nouveau dispositif de protection) 
Ho —\50";k2 LS ps — 0,22 


La taille de la population est telle que l’on peut assimiler les tirages à des 
tirages avec remise. La situation est unilatérale a priori et on va tester : 
(Ho) : Ti = T2 = 7 ; le dispositif de protection n’est pas efficace. 
(Hi) : m1 < M ; le dispositif de protection est efficace. 

On cherche à quel risque minimum a on peut rejeter (H5) au bénéfice 
de (Hi). 

HAT 
50 + 50 
Les conditions d’approximation de lois binomiales par des lois norma- 


les étant réunies, la valeur : 


Pi — P2 0,14 — 0,22 
Z = — 


F(1-7 ++) 0,18 (1 — 0,18) 53) 
d ? (= m2 DE 18 (> 50 


ñ —1,041 


Sous (Ho), 7 est estimé par 7 — = 0,18. 


est une réalisation d’une loi normale centrée réduite. 

Avec la table 2, on lit Zo 20 = 1,058 et 20,30 = 1,036. 

Comme il s’agit d’un test unilatéral, on obtient ainsi 2a Æ 0,30, soit un 
risque de 15 %. 


On peut aussi utiliser la table 1 de la fonction de répartition de (0, 1) (avec 
un dessin pour mieux comprendre) : D(1,04) = 0, 8508 = 1 - «. 


Le risque obtenu étant élevé, on peut penser que l’information disponi- 
ble ne permet pas de conclure à l’efficacité du dispositif de protection. 


11.6 On va tester l'hypothèse nulle : (Ho) : la fréquence d’apparition 
des cancers est la même chez les fumeurs et chez les non-fumeurs. 


+ Comparaison de deux fréquences expérimentales 


Sous (Ho), la fréquence commune d’apparition du cancer dans les deux 


lati t estimé Re 
Opulatuons est estimee par : a — « 
POP PET 0006200 ©?” 
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Les conditions d’approximation de lois binomiales par des lois norma- 
Pi -— P: 


Le PS il 1 
fo-n(+) 


suit, sous (Ho), la loi normale centrée réduite. 
La valeur prise par cette variable aléatoire est : 


0,1 —0,2 
er & —2,80. 


1 1 
1 M 
je 5 x 0,85 x x + x) 


Pour & = 0,05, on lit dans la table 2 : z4, = 1,96. 

Comme z #] — z4,zal, l'hypothèse (Ho)est rejetée au risque 5 %. 

La fréquence d’apparition du cancer n’est pas la même dans les deux 
populations. 

Pour & = 0,01, on a z, = 2,576 et la conclusion reste la même, même 
avec un risque de seulement 1 %. 


les étant réunies, la variable aléatoire Z — 


+ Test du x? 

On peut comparer les deux échantillons, fumeurs et non-fumeurs, par un 
test du x? (test d’homogénéité). 

Les effectifs calculés dans chaque case seront mis en rouge. 


Événements | Cancer Pas de cancer Totaux 
Échantillons 
fumeurs 40 160 200 
30 170 
non fumeurs 20 180 200 
30 170 
Totaux 60 340 400 


Comme tous les effectifs calculés sont supérieurs à 5, on peut calculer la 
distance : 
> (4030) (0-30), (160—170)*, (180 — 170) 
0 OU 0 AIT CT) 
& 7,84. 
Le nombre de degrés de liberté est  — (2 — 1) (2 — 1) = 1. 
Pour «a = 0,05, on lit XB 0 = 3,84. 
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Comme x? > NS l'hypothèse (Ho) est rejetée et on conclut que la 
fréquence d’apparition du cancer est différente chez les fumeurs et chez 
les non-fumeurs. 

Pour a = 0,01, on a oo = 6,63 et la conclusion reste la même , 


même avec un risque de seulement 1 %. 


11-7 a) Il s’agit d’un test de conformité entre la fréquence observée sur 


216 
l'échantillon p = —— = 0,72 et la fréquence observée sur la popula- 


300 
tion r = 0,67. On va tester l'hypothèse nulle : 


(Ho) : la différence observée entre p et x n’est pas significative. 


Comme les conditions d’approximation de B(n,7) par une loi normale 
0,72 — 0,67 1.84 


0,67 x 0,33 
V 300 


Pour & = 0,05, on lit z, = 1,96. 

Comme z €] — Z4,Zal, On ne peut pas rejeter (Ho). 

Les résultats du centre À ne diffèrent pas significativement des résultats 
nationaux. 


sont satisfaites, on calcule : z — 


Et pourtant, que de cocoricos dans la presse locale quand il y a 72 % de suc- 
cès et seulement 67 % dans le pays. 


b) Il s’agit de comparer les deux fréquences expérimentales : 


6 128 
0 1S pr = 004 


1 
PAT 300 200 


On va tester l’hypothèse nulle : 

(Ho) : la différence observée entre pA1 et pg n’est pas significative ; elle 
est explicable par les aléas dus à l’échantillonnage. 

Si (Ho) est vérifiée, on peut réunir les deux échantillons À et B, ce qui 
conduit à obtenir 216 + 128 = 344 reçus sur 300 + 200 = 500 candi- 


daté Donc = 058 
als. OnNC nd —- Ê 
er 


Les conditions d’approximation de lois binomiales par des lois norma- 


les étant réunies, on sait que, sous (Ho), la variable aléatoire : 


PaPe — k ; 
Z— suit à peu près la loi normale centrée 


réduite. 
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La valeur prise par cette variable aléatoire est : z Æ 1,89. 

Pour à = 0,05, on lit dans la table 2 : z, — 1,96. 

Comme z €] — z,,z4[, l'hypothèse (Ho)}ne peut pas être rejetée. La dif- 
férence entre les centres À et B n’est pas significative au risque 5 %. 


Et pourtant, que de protestations à prévoir quand il y a 72 % de succès dans 
un centre et 64 % dans l’autre. 


11-8 Il s’agit de séries appariées. On s’intéresse aux paires discordantes 
en nombres 25 et 15. 
* Avec un test de l’écart réduit 

25 D=T 


= — —=0,625 ; —05,% = p— 
40 L : fr) 


|z| < 1,96, Ho est non rejetée au seuil de 5 %. 


P Æ 1,58. Comme 


+ Avec un test du x? 


Sport-pas sport | 25 0,5 20 


Pas sport-sport 15 0,5 20 


Totaux 40 1 40 


@5=20) (1520) 
x2 = ST = 2,5. Comme x505 = 3,84, Ho est 


non rejetée au seuil de 5 %. 


re. Si vous avez fait le calcul de z, on a directement x? = z? = 2,5. 


Comparaison 
de deux moyennes, 
de deux variances 


CHAPITRE 


12.1 Comparaison d'une moyenne expérimentale et d'une moyenne 
théorique 


12.2 Comparaison de deux moyennes expérimentales dans le cas 
d'échantillons indépendants 


12.3 Comparaison de deux moyennes expérimentale dans le cas 
d'échantillons appariés 


Z 
< 
» 
0. 


12.4 Comparaison d'une variance expérimentale et d'une variance 
théorique 


12.5 Comparaison de deux variances expérimentales 
> Décider, à partir d'une prélévement limité, si une production respecte 
une norme 


> Distinguer les cas de deux échantillons indépendants et de deux échan- 
tillons appariés 


> Savoir si un traitement est actif en comparant son effet moyen à l'effet 
moyen observé sans traitement 


OBJECTIFS 


> Savoir choisir entre un test bilatéral et un test unilatéral 


> Savoir si une méthode de dosage est fiable par la régularité des résul- 
tats qu'elle donne 


12.1 COMPARAISON D'UNE MOYENNE EXPÉRIMENTALE 
ET D'UNE MOYENNE THÉORIQUE 


Problématique 


Soit X une variable aléatoire avec E(X) = y et V(X) = 0°. 


Le caractère quantitatif X est observé sur un échantillon de taille 7. Les 


mesures obtenues ont pour moyenne x et pour variance estimée 52. 
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Le problème est de savoir si la différence constatée entre y et x est expli- 
cable par les fluctuations d’échantillonnage. Les hypothèses à tester 
sont : 

(Ho) l'échantillon est extrait au hasard de la population ; sa moyenne x 
est conforme à la moyenne y: de la population. 


Pour l’hypothèse alternative, on choisira parmi les deux possibilités : 
> (H;) X n’est pas conforme à y (test bilatéral) ; 


> (H;) x n’est pas conforme à y avec à priori x supérieur (ou inférieur) 
à 1 (test unilatéral). 


Cas d’un grand échantillon (7 > 30) 


Théorème. Dans le cas n > 30,Z — Le 


5 suit à peu près la loi nor- 
\n 
male centrée réduite. 


Soit z la valeur prise par la variable aléatoire Z. 


a) Décision dans le cas d’un test bilatéral 


Le risque de première espèce « 
étant fixé, on lit dans la table 2 la 


borne z, telle que 7 A Le 
P(IZI > za) = à. Fm P. à 
> Si z appartient à la zone en _ 
blanc, l’hypothèse (5) ne | E=: 0 | 
peut pas être rejetée. Ho 
> Si z appartient à la zone tra- rejetée rejetée 


mée, on écarte (Ho) avec 
une probabilité a de se trom- 
per. 


Figure 12-1 


b) Décision dans le cas d’un test unilatéral (z > O0 par exemple) 


Le risque de première espèce a étant fixé, on détermine v, tel que 

P(Z > va) = à, ce qui correspond à P(|Z| > va) = 2a, c’est-à-dire 

Va — Z2a- 

> Si z appartient à la zone en blanc, l'hypothèse (H5) ne peut pas être 
rejetée. 
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> Si z appartient à la zone 
tramée, on écarte (Ho) 
avec une probabilité & de 
se tromper. 


Ho rejetée 


Figure 12-2 


Cas d’un petit échantillon et d’une population 
gaussienne 


Théorème 1. Si X suit une loi normale, sous l’hypothèse (Ho), 
5 


Fu 5 : 22 AS 
suit à peu près la loi normale centrée réduite. 


Œ 


Vñ 


Si o est connu, le test se construit comme dans le cas d’un grand échan- 
tillon. Mais en général © est inconnu et estimé par s. Dans le cas d’un 
petit échantillon, en remplaçant o par s, on modifie la loi suivie par X. 


0) 


Théorème 2. Sous (Ho), la variable aléatoire T — F suit la loi 
Va 
de Student à 7 — 1 degrés de liberté. 
: ; X — 
On calcule la valeur prise par T, soit 1 = —— : 
Va 


a) Décision dans le cas d’un test bilatéral 


Le risque de première espèce «à étant fixé, et le nombre de degrés de 

liberté étant connu, on lit dans la table 3 le nombre f, tel que 

P(ITI 2 ta) = à. 

> Si f appartient à la zone en blanc, l’hypothèse (5) ne peut pas être 
rejetée. 

> Si t appartient à la Zone tramée, on écarte (H5) avec un risque a de 
se tromper. 


Pis 
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b) Décision dans le cas d’un test unilatéral (cas : > 0) 


Le risque de première espèce « étant fixé, et le nombre de degrés de 
liberté étant connu, on lit dans la table 3 le nombre r, tel que 
P(T > ra) = à, ce qui correspond à r4 = f24. 
> Sif < rx, l'hypothèse (Ho) ne peut pas être rejetée. 
> Sif > ra, on rejette (Ho) avec un risque « de se tromper. 

Ce cas est donc très proche du cas précédent. Il suppose une hypothèse supplé- 


mentaire (population gaussienne) et la lecture de la borne de décision se fait dans 
la table 3 au lieu de la table 2. 


12.2 COMPARAISON DE DEUX MOYENNES EXPÉRIMENTALES 


DANS LE CAS D'ÉCHANTILLONS INDÉPENDANTS 


Problématique 


Dans deux populations P; et P:, on étudie une variable aléatoire X. On 

note : 

— 1 et o1 la moyenne et l’écart type de X dans Pi, 

— L et 02 la moyenne et l’écart type de X dans P:. 

Tous ces nombres sont inconnus. 

De P., on extrait un échantillon E;, de taille 7, pour lequel on calcule 

sa moyenne x, et son écart type estimé s1. 

De P;, on extrait un échantillon E>, de taille 72, pour lequel on calcule 

sa moyenne x2 et son écart type estimé 52. 

Les échantillons sont supposés indépendants. Le problème est de savoir 

si la différence entre les moyennes expérimentales x, et x2 est significa- 

tive, ou au contraire explicable par les fluctuations d’échantillonnage. 

Les hypothèses à tester sont : 

(Ho) : Hi = Ju, c’est-à-dire P; et P; sont homogènes, ou encore la dif- 

férence entre x, et x2 n’est pas significative. 

Pour l’hypothèse alternative, on choisira entre les deux possibilités : 

— (Ai) : 1 Æ (test bilatéral), 

— (Hi) : y > (ou y, < ji) Si le signe de y, — ju, est connu a prio- 
ri (test unilatéral). 
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Cas de deux grands échantillons (7, > 30 et r2 > 30) 


ee : _— X1 — X2 _ 
Théorème. Sous (A5), la variable aléatoire Z = ————— suit à 
of de 
ln 22 
nm) "M 


peu près (0,1). 


Ici la conclusion est inchangée quand on remplace les valeurs inconnues 


af et a> par les valeurs estimées 5? et 53. On calcule donc 


X1 — X2 
Z = ——— : 
CR 
— + — 
ni n2 


a) Décision dans le cas d’un test bilatéral 

a étant fixé, on lit z,, dans la table 2. 

> Siz appartient à la zone en blanc, l'hypothèse (40) ne peut pas être 
rejetée. 

> Siz appartient à la zone tramée, on écarte (H5) avec un risque « de 
se tromper. 

b) Décision dans le cas d’un test unilatéral (cas > 0) 

a étant fixé, la table 2 nous donne v, = z24. 

> Siz < va, l'hypothèse (Ho) ne peut pas être rejetée. 


»> Siz > v,, on rejette (6) avec un risque « de se tromper. 


Cas de petits échantillons (7, < 30 ou nr < 30) extraits 
de populations gaussiennes 


Théorème. Sous (Ho), si X suit une loi normale dans P\ et P, et si 
2 2 Xi X2 : ; k 

= 05 = 0°, alors T = suit la loi de Student à 
al 1 

DT 

n] n2 


n1 + n2 — 2 degrés de liberté. 
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a) Calculs intermédiaires 


© Pour utiliser ce théorème, il faut d'abord tester l'égalité des deux variances (cf. para- 
graphe 12.5). 


Si l'hypothèse de = 0ÿ = o? est retenue, cette valeur commune o? est 


2 2 
2 _ (ni — js; + (2 — Ds; 
n, +n2 —2 
Le théorème continue à être à peu près vrai et on calcule : 


alors estimée par 


b) Décision dans le cas d’un test bilatéral 

a étant fixé et le nombre de degrés de liberté étant connu, on lit f, dans 

la table 3. 

> Si t appartient à la zone en blanc, l'hypothèse (H5) ne peut pas être 
rejetée. 

»> Si t appartient à la Zone tramée, on écarte (H5) avec un risque a de 
se tromper. 


c) Décision dans le cas d’un test unilatéral (cas : > 0) 


a étant fixé et le nombre de degrés de liberté étant connu, la table 3 nous 
donne Fr} = f2w. 
> Sif < rx, l'hypothèse (Ho) ne peut pas être rejetée. 


> Sif > ra, on rejette (Ho) avec un risque a de se tromper. 


12.3 COMPARAISON DE DEUX MOYENNES EXPÉRIMENTALES 
DANS LE CAS D'ÉCHANTILLONS APPARIÉS 


Problématique 


Deux échantillons sont dits appariés lorsque chaque valeur x; ; de E est 
associée à une valeur x;, de E2 (appariés = associés par paires), par 
exemple E; peut être un groupe de malades avant un traitement et E2 le 
groupe des mêmes malades après traitement. 
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@ Deux échantillons appariés ont donc la même taille n, ce qui est une condition 
nécessaire mais non suffisante. 


Le problème est de savoir si la différence entre les moyennes x, et x2 des 
échantillons est explicable par les fluctuations d’échantillonnage. 
Les hypothèses à tester sont : 
Co) : Hi = Ja 
(Hi) : ji si le test est bilatéral ; 
Hi > h (ou y < Ju) si le test est unilatéral. 


Mise en place du test 


On calcule les n différences dj = Xi — x:2. 

L’échantillon {di,..…. ,d,} a pour moyenne 4 et pour écart type estimé 54. 
Sous l’hypothèse (Ho), la variable aléatoire D = Xj — X2 doit avoir 
une moyenne nulle. On est ainsi ramené à la comparaison d’une moyen- 
ne expérimentale d et d’une moyenne théorique u = 0. 


D 
> Sin > 30, on sait que Z = — ,/n suit N(0,1). 
Sd 
On calcule donc la valeur z prise par Z et on la compare à la borne 


za lue dans la table 2. 


> Sin < 30 et si la population des différences est gaussienne, on sait 


D : : 
que T = — /nsuit la loi de Student avec v = n—1. 
Sd 


On calcule donc la valeur f prise par T et on la compare à la borne f,, 
lue dans la table 3. 

> Sin < 30 et si les lois ne sont pas connues, on utilise le test de 
Wilcoxon (cf. chapitre 16). 


12.4 COMPARAISON D'UNE VARIANCE EXPÉRIMENTALE 
ET D'UNE VARIANCE THÉORIQUE 


Problématique 


Avec les mêmes notations que dans la problématique du 12.1, le problè- 
me est ici de savoir si l’échantillon est représentatif de la population en 
ce qui concerne la régularité des mesures, c’est-à-dire si la différence 
constatée entre o? et s? est explicable par les aléas dus à l’échantillon- 
nage. 
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L'hypothèse nulle peut s’écrire : 
(Ho) : l'échantillon est extrait au hasard de la population ; sa variance 


estimée s? est conforme à la variance 0° de la population, c’est-à-dire 
que la différence des valeurs numériques n’est pas significative. 


Théorème. Si X suit une loi normale, sous l’hypothèse (Æo), la 


variable aléatoire Y = S? suit la loi du x? à n — 1 degrés de 


liberté. 


o2 


Utilisation dans le cas nr < 31 


a) Calculs 
On calcule la valeur prise par la variable aléatoire du théorème 
n—1l, 
= s 
y oi 


b) Décision 
Le risque de première espèce « étant fixé, et le nombre de degrés de 


liberté étant connu, la table 4 permet de déterminer les nombres a et b 
tels que : 


a a. a 
PY >b)=— et P(Y <a)= — soit P(Y > a) =1-— 
2 2 2 
> Si yel]a,b[, l'hypothèse 
(Ho)ne peut pas être rejetée. 
> Si yéla,b[, on rejette _. a 
(Ho)avec un risque a de se 2 
tromper. - ? 
Ho rejetée Ho rejetée 


Figure 12-3 
Utilisation dans le cas nr = 31 


Ce cas disparaît si vous êtes hors situation de contrôle scolaire et si vous 
disposez d’un ordinateur et d’un logiciel de statistiques. 


Théorème. Si Y est une variable aléatoire qui suit une loi du y? à v 
degrés de liberté et si > 30, alors la variable aléatoire 


Z = V2Y — V/2v — 1 suit à peu près la loi N(0,1). 
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a) Calculs 


2(n—1) 2 


On calcule la valeur prise par Z, soit : z — s 


© 


b) Décision 

Le risque de première espèce «a 

étant fixé, on lit dans la table 2 le 

nombre z, tel que 

P(IZ| > za) = à. 

> Siz €] — Za,Zal, l'hypothèse 
(Ho)ne peut pas être rejetée. 


Ho Ho 


> Si z#]—Zazal, on rejette rejetée rejetée 


(Ho) avec un risque « de se 


tromper. Figure 12-4 


12.5 COMPARAISON DE DEUX VARIANCES EXPÉRIMENTALES 


Problématique 


Avec les mêmes notations que dans la problématique du 12.2, le problè- 
me est ici de savoir si la différence entre s? et s? est significative, ou au 
contraire explicable par les fluctuations d’échantillonnage. 


L'hypothèse nulle est : (Ho) : of = o. 


Mise en place du test et décision 


Théorème. Si les deux populations sont gaussiennes, sous l’hypothè- 
2 


se (Hi), la variable aléatoire F — suit la loi de Snedecor à 


“li 
2 
5 


(ñ1 — 1,n2 — 1) degrés de liberté. 


a) Lois de Snedecor 


Une loi de Snedecor est une loi de probabilité continue dont la densité 
est nulle pour x < 0, et dépend de deux paramètres appelés degrés de 
liberté (attention, ces paramètres sont ordonnés, en les permutant on 
obtient une autre loi de Snedecor). 
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Le risque de première espèce @ 
étant fixé, les tables permettent de ee 1-a 

déterminer f/ et f,, tels que : LR “4 > 
P(f/<F<f)=1-a 


decPF<e Ti = 


a 
2 ; Figure 12-5 


et P(F > fa) = 


En fait, les tables fournissent seulement f,.. On peut obtenir f! en sachant 
que si F suit la loi de Snedecor à (71 — 1,n2 — 1) degrés de liberté, alors 


1 
F suit la loi de Snedecor à (12 — 1,n1 — 1) degrés de liberté. Mais la 


connaissance de f/ n’est pas nécessaire avec la règle de décision qui suit. 


b) Règle de décision 


Comme les tables de F ne comportent que des valeurs supérieures à 1, 
2 
re 2 : ; si 
on permute si nécessaire les deux échantillons de sorte que — > 1. 
52 
@ Attention à permuter les degrés de liberté si vous avez permuté les variances esti- 
mées. 


2 
s 
e 1x 
Puis on compare — à fa. 
52 
si 
> Si pe < fx, On ne peut pas rejeter (Ho). 
2 
> Si + > fa, on rejette (Ho) avec une probabilité « de se tromper. 
s 
2 


Attention, comparez les graphiques du test et la légende graphique des tables 
2 disponibles. 

Si le risque du test est &« = 0,05, vous devez lire dans la table 5 où la surface à droite 

de la borne de décision est 0,025. 

La loi de Snedecor a d'autres usages (cf chap. 13), ce qui explique la distorsion appa- 

rente entre le risque de ce test et le titre de la table. 
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/ Choisir a priori des échantillons indépendants ou appariés 


Problématique de l’expérimentaliste 

Pour étudier l'influence d’un traitement sur la moyenne d’un caractè- 
re numérique, on utilise un échantillon témoin (malades avec place- 
bo) et un échantillon traité (malades recevant le principe actif). 
Quelles raisons peuvent conduire à choisir a priori des échantillons 
indépendants ou des échantillons appariés ? et quelles sont les pré- 
cautions expérimentales recommandées ? 


Éléments de réponse 


On choisit les mêmes individus (échantillons appariés) si l’on pense 
qu’il peut y avoir une variabilité des réactions individuelles qui per- 
turberait l’étude du traitement. 

Si les individus sont considérés comme interchangeables, on prend 
des échantillons indépendants. 

Dans le premier cas, l’ordre de passage (médicament actif, placebo) 
doit être tiré au sort pour chaque individu. 

L'administration se fait à l’aveugle (infirmier(e) non informé(e)) et 
avec un délai suffisant. 

Dans le second cas, les échantillons sont constitués de façon aléatoi- 
re, c’est-à-dire que les individus sont tirés au sort. 


& MOTS-CLÉS 


> Comparaison à une norme 


> Échantillons indépendants 
> Échantillons appariés 
> Lois de Snedecor 


EXERCICES 


12-1 Les spécifications d’un certain médicament indiquent que chaque 
comprimé doit contenir 2,5 g de substance active. 

100 comprimés sont choisis au hasard dans la production, puis analysés. 
Ils contiennent en moyenne 2,6 g de substance active, avec un écart type 
estimé s = 0,4 g. 

Peut-on dire que le médicament respecte les spécifications (a = 0,05) ? 
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12-2 À la suite d’un traitement sur une variété de rongeurs, on prélève 
un échantillon de 5 animaux et on les pèse. On obtient les poids en g : 


83 ; 81 ; 84 ; 80 ; 85. 


À la même époque un grand nombre de mesures a permis d'établir que 
les rongeurs non traités avaient un poids moyen de 87,6 g. 

Le poids moyen des rongeurs traités diffère-t-il significativement de 
cette norme au seuil 5 % ? On suppose que le poids des rongeurs suit une 
loi normale. 


12-3 On a prélevé deux échantillons de pommes pour en étudier le 
poids. 

Le premier, en début de récolte, a pour taille 100, pour moyenne 120 g 
et pour écart type estimé 20 g. 

Le second, en fin de récolte, a pour taille 150, pour moyenne 150 g et 
pour écart type estimé 10 g. 

La différence entre les poids moyens à ces deux époques différentes de 
la récolte est-elle significative, 


12-4 Pour déterminer le poids moyen d’épis de blé appartenant à deux 
variétés, on a procédé à dix pesées pour chaque variété. Les moyennes 
obtenues ont été : X1 = 170,7 cg et X2 = 168,5 cg. 

On admet que le poids de ces graines est distribué dans chaque variété 
suivant une loi de Gauss et que les variances de deux distributions peu- 
vent être considérées comme égales. Les estimations obtenues sur 
chaque échantillon sont : se = 432,9 et Fe — 1827; 


La différence des moyennes est-elle significative au risque a = 0,05 ? 


12-5 Pour comparer l’effet de la vitamine C du jus d’orange et de l’aci- 
de ascorbique de synthèse, on a donné, pendant 6 semaines, du jus 
d’orange à un groupe de 10 cobayes et de la vitamine de synthèse à un 
groupe de 10 autres cobayes, puis on a mesuré la longueur des odonto- 
blastes des incisives. On a obtenu les résultats suivants : 
jus d'orange 

8,220:4% 0,6% 9:7: 100: 145152 :;16;:1:17:6:21,5 
acide ascorbique 

4,92%52%5:8-04%740% 73 101411221182 0418$ 

Testez l'hypothèse (Ho) « l'effet des deux produits est le même » con- 
tre (H:) « le jus d’orange accélère la croissance ». Formulez sans véri- 
fication les hypothèses dont vous avez besoin et concluez au risque de 
DCE 
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12-6 Chez un groupe de 10 malades, on expérimente les effets d’un trai- 
tement destiné à diminuer la pression artérielle. On observe les résultats 
suivants (valeurs de la tension artérielle systolique en cm Ho). 


Sujet n° 1 2 3 4 5 6 | 7 8 9 | 10 
Avant traitement 15 | 18 | 17 |, 20 | 21 | 18 117 | 15 | 19 | 16 


Après traitement 12116 | 17 | 18 | 17 | 15 | 18 | 14 | 16 | 18 


Le traitement a-t-il une action significative, au risque 5 % ? On suppo- 
sera que la variable aléatoire égale à la différence des tensions artériel- 
les suit une loi normale. 


12-7 On se demande si la densité de l’écorce d’un chêne-liège est la 
même sur le côté nord et le côté sud d’un arbre. Pour cela on découpe 
des cubes de liège de même dimension sur chaque côté nord et chaque 
côté sud de 20 arbres. Les masses obtenues sont les suivantes : 


Arbre 1 2 3 4 5 6 7 8 9 10 
Nord 68,3 | 60,1 | 52,2 | 41,7 | 32,0 | 30,99 | 39,3 | 42,0 | 37,7 | 33,5 
Sud 72,5 | 56,0 | 55,8 | 39,2 | 31,4 | 35,5 | 39,2 | 41,1 | 43,3 | 31,7 


Arbre 11 12 13 14 15 16 17 18 19 20 
Nord 32,2 | 63,3 | 54,2 | 47,0 | 91,99 | 56,1 | 79,6 | 81,2 | 78,4 | 466 
Sud 31,9 | 58,1 | 52,7 | 46,2 | 90,2 | 55,4 | 75,1 | 86,6 | 75,3 | 43,8 


Effectuez le test avec un risque a = 0,05 dans le cas où l’on peut sup- 
poser les populations gaussiennes. 


12-8 À six volontaires on donne un hypnotique A et on observe les 
durées d’endormissement suivantes : 


Sujets 1 2 3 4 5 6 


T (en min) 15 25 38 19 45 8 


À ces mêmes volontaires on administre quelque temps après un autre 
hypnotique B. 


Sujets 1 2 3 4 5 6 


T (en min) 13 22 36 20 45 10 


On admet que la différence des durées d’endormissement suit une loi 
normale. 
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a) Ÿ a-t-il une variation significative (au risque 5 %) des durées d’en- 
dormissement entre ces deux expériences ? 

b) En admettant que les différences des durées d’endormissement 
conservent la même moyenne et le même écart type estimé, sur quel 
nombre minimum n (avec n > 30) d’individus doit porter l’expérience 
pour conclure, au même risque, à une différence significatice ? 


12-9 On désire comparer la régularité du travail d’une nouvelle doseu- 
se pour boîte de haricots verts à la norme habituelle de l’usine pour 
laquelle l'écart type est o = 4 g. On suppose que la variable aléatoire 
donnant le poids d’une boîte prise au hasard dans la production suit une 
loi normale. 

a) On prélève un échantillon de taille 10 sur lequel on obtient un écart 
type estimé s = 4,84 g. Au risque «& = 0,05, peut-on considérer que ce 
résultat est conforme à la norme souhaitée ? 

b) Même question en supposant que les mêmes valeurs numériques ont 
été obtenues à partir d’un échantillon de taille 50. 


12-10 On a étudié l’homogénéité des rendements fouragers de deux 
types de prairie. Chaque type de prairie a été partagé en plusieurs par- 
celles. Les résultats sont les suivants (en kg/are) : 


Prairie n° 1 | Prairien°2 
Parcelle 1 19,8 15,9 
Parcelle 2 20,6 19,8 
Parcelle 3 27,0 20,9 
Parcelle 4 29,5 22:5 
Parcelle 5 29,9 26,3 


On suppose que la variable aléatoire donnant les rendements suit une loi 
normale. 

Peut-on dire, au seuil de 5 %, que les deux populations ont la même 
variance ? 

Si oui, peut-on conclure, en comparant les moyennes, que les rende- 
ments sont homogènes dans les deux types de prairie ? 


12-11 Dans un article de la revue Biometrica, le biologiste Latter donne 
la longueur L (en mm) des oeufs de coucou trouvés dans les nids de 
deux espèces d’oiseaux : 

— dans des nids de petite taille (roitelet) : 
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198 :221:215:209:220:;:210:223:210:203:20,9 : 22,0: 
22,0 ; 20,8 ; 21,2 ; 21,0 

— dans des nids de taille plus grande (fauvette) : 

22,0 ; 23,9 ; 20,9 ; 23,8 ; 25,0 ; 24,0 ; 23,8 ; 21,7 ; 22,8 ; 23,1 ; 23,5; 
23,0 ; 23,0 ; 23,1 

On suppose que L suit une loi normale dans chacune des deux popula- 
tions. 

Peut-on dire, au seuil de 5 %, que les deux populations ont la même 
variance ? 

Si oui, testez l'hypothèse que le coucou adapte la taille de ses oeufs à la 
taille du nid dans lequel il pond. 


SOLUTIONS 


12-1 Il s’agit d’un test de comparaison d’une moyenne expérimentale 
X = 2,6 et d’une moyenne théorique u = 2,5. 

L'hypothèse nulle (Ho) est que la différence entre x et y n’est pas signi- 
ficative, et le test est bilatéral car on ne sait rien a priori sur le bienfait 
qu’il y ait trop, ou pas assez, de substance active. 

Comme il s’agit d’un grand échantillon, si (H) est vraie, alors la varia- 


ble aléatoire Z = l suit à peu près la loi N(0,1). 


S 


U prend la valeur z = ro 


VT00 
Si a = 0,05, on a z0,05 = 1,96. 
Comme z # ] — 20.05; Zo.osl.on rejette (H5) et on conclut, au risque 
5 %, que la production ne respecte pas les spécifications. 


Comme &, oi = 2, 576,on ne rejetterait pas (Hb) si on limitait le risque de pre- 
mière espèce à 1 %. 
Ce n'est pas surprenant : quand on diminue ot, on rejette moins souvent (Hb). 


12-2 Il s’agit de comparer une moyenne expérimentale x et une moyen- 
ne théorique u = 87,6. 

(Ho) : le poids moyen des rongeurs ne diffère pas significativement de 
la moyenne théorique. 


166 Chapitre 12 + Comparaison de deux moyennes, de deux variances 


Sous l’hypothèse (5), comme on dispose d’un petit échantillon et 


X 
d’une population gaussienne, la variable aléatoire T = nn suit la loi 


\n 
de Student à n — 1 = 4 degrés de liberté. 
Avec les mesures de l’échantillon, on calcule : x = 82,6 ets Æ 2,07. 
La valeur prise par T est donc : { & —5,39 
Avec v = 4 et & = 0,05, on lit dans la table 3 : {0,05 = 2,776. 
Comme f & ] — t005; to.05l, (Ho) est rejetée au risque 5 %. Le poids 
moyen des rongeurs traités est significativement différent de la norme. 
Le traitement a donc un effet sur le poids. 


12-3 Il s’agit d’une comparaison de deux moyennes expérimentales pro- 
venant de deux grands échantillons. 

L'hypothèse nulle (H5) à tester est que les poids moyens ne sont pas 
significativement différents aux deux époques de la récolte. 


Ki 
Si (Ho) est vraie, alors Z = in suit à peu près la loi W (0,1). 
sf , 5 
ee + A 
n1 A2 


On a 5? = (20)? et 52 = (10)? ; d’où z & —13,88. 
On lit dans la table 2, ou dans le bas de la table 3 : 


Zo,05 = 1,96 ; zo,o1 = 2,576 ; Zo,oo1 = 3,291. 


Dans tous les cas [u| > z, et on rejette (Ho). 
Les deux moyennes sont donc significativement différentes, même avec 
seulement & = 0,001. 

Si on supposait que les pommes ne peuvent que grossir en cours de récolte, 


on choisirait un test unilatéral. Mais ce n'est pas sûr ; le plus probable est que 
la cueillette ne concerne pas les mêmes espèces en début et en fin de récolte. 


12-4 Il s’agit d’une comparaison de deux moyennes expérimentales pro- 
venant de deux petits échantillons indépendants. On va tester : (Ho) : 
LH = Lu ; la différence des moyennes n’est pas significative. 

Les populations sont supposées gaussiennes et de même variance. Cette 
variance commune est estimée par : 


2 2 Gi Dsi + (= Ds 
n] Æ 9 2 


= 307,8. 


Solutions 167 


Sous (Ho), la variable aléatoire T = suit la loi de 


Student à 71 + n2 — 2 degrés de liberté. 

La valeur prise par T est r Æ 0,28. 

Avec a = 0,05 et v = 18, on lit dans la table 3 : 0,05 = 2,101. 
Comme f € ] — t0.05; f0,05[, on ne peut pas écarter (Ho). 

Les deux moyennes ne sont donc pas significativement différentes. 


12-5 Il s’agit d’une comparaison de deux moyennes expérimentales pro- 
venant de deux petits échantillons indépendants. Les hypothèses (Ho) et 
(H:) de l’énoncé conduisent à un test unilatéral. 

On va supposer les populations gaussiennes et de même variance. 

À partir de chaque échantillon, on calcule : 


jus d'orange (échantillon E:) 
hi = 10; 71 = 13,18; 57% 19,69 
acide ascorbique (échantillon E) 
n2 = 10; x2=8; 5; © 7,66 
La variance supposée commune aux deux populations est estimée par : 


a _ Cu = Ds + (m2 Ds 


& 13,68. 
ni + n2 — 2 
: Re X1 — X2 : : 
Sous (Ho), la variable aléatoire T — suit la loi de 
een 1 
+—) 
1 M 


Student à 71 + n2 — 2 degrés de liberté. 

La valeur prise par Test r & 2,971. 

On a v = 18. Et la borne unilatérale à 5 % est 0 10 = 1,734. 

Comme f > 0.10, (Ho) est rejetée au risque 5 %. On conclut donc que 
le jus d’orange accélère la croissance. 


12-6 Nous sommes en présence de deux échantillons appariés car il s’a- 
git des mêmes malades, avant et après le traitement. Et le traitement est, 
a priori, destiné à diminuer la tension artérielle, ce qui conduit à effec- 
tuer un test unilatéral. 
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Soit u, (avant traitement) et y, (après traitement) les moyennes des 
populations correspondantes. Les hypothèses à tester sont : 

(Ho) : Hi = 1 ; 

(Hi) : bi > Ho. 

Calculons les différences entre les valeurs de la tension artérielle avant 
et après traitement : 


Hi 0 as 113 2; 
Cet échantillon provient, par hypothèse d’une population gaussienne. Il 
a pour moyenne d = 1,5 et pour écart type estimé sy # 1,96. 


suit la loi de Student à 


Sous (Ho), la variable aléatoire T — 5; 


NT) 
n — 1 degrés de liberté. 


d 
La valeur prise par Test t = — 10 & 2,42. 
Sd 


Pour à = 0,05 et v = 9, comme le test est unilatéral, la valeur frontière 
est t0,10 = 1,833. 

Comme f > t0,10, on rejette l’hypothèse nulle au risque 5 %. 

On conclut donc que le traitement a une action significative. 


12-7 Les échantillons sont appariés car il s’agit de la face nord et de la 
face sud des mêmes arbres. En fait, on veut étudier l’influence des vents 
dominants sans faire intervenir la variabilité due aux arbres. 

Le test est bilatéral et on teste : 

(Ho) : 3 = Ju ; la densité de l’écorce est la même sur le côté nord et 
sur le côté sud. 

Considérons l’échantillon constitué par les différences « Nord-Sud » : 
{4,2 ; 4,1 ; -3,6 ; 2,5 ; 0,6 ; 4,6 ; 0,1 ; 0,9 ; 56 ; 18; 
03" 525 LS O8 LT OS AS SEE 3165 2:81 

Le test est équivalent à la comparaison de la moyenne 4 à la moyenne 
théorique y = 0. 

Les populations étant supposées gaussiennes (en fait, la bonne hypo- 
thèse est que la différence des valeurs suit une loi de Gauss), la varia- 


D-0 
ble aléatoire T = re suit la loi de Student à v = n — 1 degrés de 


An 
liberté. Ici on a : d — 0,36 ; 59 & 3,32 : n = 20 
d’où l’on déduit la valeur prise par 7, soit t Æ 0,49. 
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Avec & = 0,05, on lit dans la table 3 la borne 0,05 = 2,093. 
Comme |{f| < 0,05, (Ho) est non rejetée à à = 0,05. Cette observation 
ne met pas en évidence de différence significative entre les densités. 


12-8 Il s’agit d'échantillons appariés puisque ce sont les mêmes indivi- 
dus qui reçoivent les deux traitements. Et le test est bilatéral puisqu'on 
ne sait rien a priori sur les deux substances. 

Soit u, et 1 les moyennes des populations correspondantes. On teste : 
(Ho) : Li, = Ju ; pas de différence signifivative entre les durées d’en- 
dormissement. 


a) L’échantillon des différences d = T1 — Tz : 
212-102, 

a pour moyenne d # 0,67 et pour écart type estimé sy 1,97. 
d 

Sous (Ho), 1 = — ,/n & 0,830 est la réalisation d’une loi de Student 
Sd 

de degré de liberté v = n — 1 = 5. 

Avec & = 0,05, on lit dans la table 3 la borne 10,05 = 2,571. 

Comme t € | — {005 ; f0.05l, On ne peut pas rejeter (Ho). La différence 

des durées d’endormissement n’est pas significative. 


L'expérience a porté sur un nombre très limité de sujets. C'est donc la pauvre- 
té de l'information expérimentale qui n'a pas permis de mettre en évidence 
une différence des durées d'endormissement. En augmentant la taille de 
l'échantillon étudié, l'information sera plus riche. C'est l'objet de la question 
suivante. 


d ne : 
b) En supposant n > 30, z = — ,/n est la réalisation d’une loi norma- 


Sd 
le centrée réduite. On rejettera donc (Ho) au risque à = 0,05 si : 
0,67 1,96 x 1,97 \° 
: 1,96 a > 34. 
1,97 V* > n>( 0,67 ) : 


12-9 On va tester (Ho) : la variance estimée s? est conforme à 02. 


Comme la population est gaussienne, sous (A5), la variable aléatoire 


n—] 
Y — 


à S? suit la loi du y? à = n — 1 degrés de liberté. 
o 

a) Cas n = 10 

9 x 4,842 


mr — = 13.176. 


La valeur prise par Y est y = 
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La table du s permet de déterminer les nombres a et b tels que 


P(Y > b) = SAPU< <a)=1-5: 


Avec @ = ce etv =9,onlit: a = 2,70 et b = 19,02. 

Comme y e]a,bl, l'hypothèse (Ho) ne peut pas être rejetée. 

a) Cas n = 50 

Le degré de liberté = 49 ne permet pas d’utiliser les tables (sur papier) 
du x?. 

Mais, dans ce cas, Z = V2Y — /2r — 1 suit sensiblement la loi nor- 
male centrée réduite. La ee prise par U est : 


2 x 49 x 4,842 
nr ses V9 2,13. 
42 
Si a = 0,05, on a z0,05 = 1,96. 
Comme z €] — z0.05,z0.05[.l’hypothèse (Ho) est rejetée avec un risque 
d’erreur inférieur à 5 %. 


Si la conclusion a changé avec les mêmes valeurs numériques, c'est parce que 
@ l'information apportée par une observation sur un échantillon de plus grande 
taille est plus riche qu'avant. 


12-10 a) Comparaison des variances 

Le premier échantillon (prairie n° 1) a pour taille n, = 5, pour moyen- 
ne X1 = 25,36 et pour variance estimée sé — 23,503: 

Le deuxième échantillon (prairie n° 2) a pour taille n2 = 5, pour 
moyenne X2 — 21,08 et pour variance estimée = 14,442. 

Nous allons tester l'hypothèse nulle (A5) : les deux populations ont la 


même variance. 
Comme on suppose que les rendements suivent des lois normales, 


si (Ho) est vraie, F — suit la loi de Snedecor à (4; 4) degrés de 


2 

sl 

2 

S 

liberté. 

En faisant le quotient dans l’ordre où le résultat est > 1, on a 
s2 


f=-#1,63. 
: 
Pour & = 0,05, la table 5 indique f0,05 = 9,60. 
Comme f < f0.05, l'hypothèse (Ho) ne peut pas être rejetée au risque 
5 X. 
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b) Comparaison des moyennes 


Ici l'hypothèse nulle est (H6) : 4, = p, c’est-à-dire les rendements sont 


homogènes dans les deux types de prairie. 


En admettant que 0? = 02 d’après la question précédente, comme les 


populations sont supposées gaussiennes, on sait que, sous (Ho), la varia- 


ie. A — : : - 
ble aléatoire T = suit à peu près la loi de Student à 


CA Rnien rie: 
n] n2 


n1 + n2 — 2 degrés de liberté. 
452 + 452 
On a : 6 — —— — 18,9725 et T prend la valeur f & 1,55. 


Pour a = 0,05 et v = 8, on a t0,05 = 2,306. 

Comme t €] — #005,f0.05[ , l'hypothèse (H5)ne peut pas être rejetée. On 
peut donc considérer que les rendements ne sont pas significativement 
différents dans les deux types de prairie. 


12-11 - Estimations ponctuelles 
À partir du premier échantillon de taille 71 = 15, on peut estimer la 
moyenne y, de L dans la première population par x, © 21,25 mm et la 
variance o? par 5? % 0,516 mm?. 
À partir du deuxième échantillon de taille n> = 14, on peut estimer la 
moyenne de L dans la deuxième population par x: Æ 23,11 mmet 


la variance o3 par 52 1,101 mm?. 


+ Comparaison des variances 


On va tester (Ho) : les deux populations ont la même variance. 


2 
Les populations étant supposées gaussiennes, si (Ho) est vraie, F = g 
2 
suit la loi de Snedecor à (14; 13) degrés de liberté. 
En faisant le quotient dans l’ordre où le résultat est > 1, on a 
52 
f == "213. 
si 
@ Les degrés de liberté sont devenus (13 ;14) à la suite de la permutation des termes 
du quotient. 


Pour & = 0,05, la table 5 indique f605 & 3,07. 
Comme f < f0,05, l'hypothèse (H6) ne peut pas être rejetée au risque 
5 X. 
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+ Comparaison des moyennes 
On va tester (Ho) : le coucou n’adapte pas la taille de ses oeufs à celle 
du nid dans lequel il pond, c’est-à-dire 1, = Ju. 
D’après le test précédent, les variances des deux populations ne sont pas 
significativement différentes. Leur variance commune peut être estimée 
ou SE Cet 
par : o — 

n] Æ 1 {5 2 
Sous l'hypothèse (A5), comme il s’agit de petits échantillons extraits de 
populations gaussiennes de même variance, la variable aléatoire 


& 0,798. 


Xi a : : à 
T = ———2È— suit à peu près la loi de Student à n1 + n2 —2 
Neal 1 
G(— + —) 
n1 n2 
degrés de liberté. 


La valeur prise par T est r Æ —5,60. 

Pour a = 0,01 et v = 27, on lit : fo,01 = 2,771 ; pour a = 0,001, on 
lit : 10,001 = 3,69. 

Dans tous les cas,ona:f # ]—1,1,[ et on peut affirmer, avec un risque 
d’erreur inférieur à 0,001, que le coucou adapte la grosseur de ses oeufs 
à la taille du nid. 


Il s'agit d'un phénomène de mimétisme qui permet aux oeufs de coucou 
de passer plus facilement inaperçus. 


D 


LU 
ce 
E 
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Analyse de la variance 


13.1 Généralités 


13.2 Analyse de la variance à un facteur 


13.3 Analyse de la variance à deux facteurs (échantillons de plusieurs 


Z 
« 


a. observations) 

13.4 Analyse de la variance à deux facteurs (échantillons d'une seule 

observation) 
TM > Comparer simultanément plusieurs moyennes pour étudier l'influence 
EC des diverses modalités d'un facteur sur une grandeur mesurable 
4 »> Étudier l'influence de deux facteurs sur une grandeur mesurable, et leur 
La) : : 
interaction 

[e) 


13.1 GÉNÉRALITÉS 


L'analyse de variance (comme son nom ne l’indique pas) permet de 
comparer les moyennes de plusieurs échantillons indépendants afin de 
tester l’influence d’un ou plusieurs facteurs. 

L'analyse de variance n’est valable en toute rigueur que pour des échan- 
tillons tirés de populations gaussiennes et de même variance. En géné- 
ral, le non-respect de ces conditions n’a pas trop d’influence sur la vali- 
dité du test (on dit que l’analyse de variance est une méthode robuste). 
L'erreur introduite est cependant d’autant plus forte que les effectifs des 
échantillons sont faibles et inégaux. 
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13.2 ANALYSE DE LA VARIANCE À UN FACTEUR 
Problématique 


On dispose de k échantillons indépendants E,...,E,, extraits de k popu- 
lations P;,...,P, supposées gaussiennes et de même variance o2. Les 
moyennes respectives des populations sont notées ,,...,/4y. 

L'analyse de variance (ou ANOVA : ANalysis Of VAriance) permet de 
comparer globalement les moyennes des populations. 

L'hypothèse nulle est donc : 

(Ho) : Hi == y 

En général, les k échantillons correspondent à k modalités d’un facteur 
contrôlé. Par exemple, il peut s’agir de k groupes de malades, chaque 
groupe recevant un traitement différent. Le facteur contrôlé est alors le 
facteur traitement. Il est donc équivalent de formuler l’hypothèse nulle 
sous la forme : 

(Ho) : la moyenne des populations est indépendante du facteur étudié. 


Variance résiduelle ;: variance factorielle 


> Pour chaque échantillon E;, de taille n;, on calcule la moyenne x; et 
2 


la variance estimée s*. 
> La réunion de tous les échantillons a pour taille n, pour moyenne x 
k k 
et pour variance estimée 52. On a : n — don etx = — > Xi. 
i=i Hi 
s? caractérise la dispersion de l’ensemble des données par rapport à 
la moyenne générale x. 


> Avec les hypothèses de départ, on dispose d’une première estimation 


de o? appelée variance résiduelle (ou variance intragroupe) et 
définie par : 
2 1 2 
SR = nr Ètm- Ds. 


s? est la moyenne des variances estimées s? affectées des coefficients 


n; — 1. Elle caractérise la dispersion des valeurs à l’intérieur des 
échantillons. 


> Sous l’hypothèse (Ho), on dispose d’une deuxième estimation de a? 
appelée variance factorielle (ou variance intergroupe) et définie 
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par : 


Du À 
FE — Fr) 2 (x; =) 


2 


sr Caractérise la dispersion des valeurs d’un échantillon à l’autre, 
c’est-à-dire la variation due à l’influence du facteur étudié. 


Théorème d’analyse de la variance 


(n—1)52 = (n—Rk) 5% +(k— 1) 5%. 


s? est donc une moyenne pondérée de 5% et de 57. Ce théorème permet 


d'obtenir s% après avoir calculé 5% et s?, ce qui est plus rapide qu'avec 


la définition. 


Variante des calculs (avec tableur) 
— Écrire en colonnes C; les mesures x; ; de chaque échantillon E;. 
— Déterminer l’effectif 7; de chaque échantillon et l’effectif total 


n — ) lfo 
i 


— Pour chaque colonne, additionner les valeurs, élever au carré la 
somme obtenue et diviser par l’efffectif de l’échantillon, soit 


1 2) 
de a) . 
ni (D y) 
j 
— Additionner tous ces résultats, ce qui donne 
1 2) 
Â = —( Xi ) 9 
DO 
i j 
— Additionner toutes les mesures, ce qui donne B = + Xij 
du 
—  Additionner tous les carrés de toutes les mesures : € = ne ) 
du 


1 BA 1 
Ona alors: = [4 - +] ee (Cm 
Es. n 


Test de l'hypothèse nulle 


S 
Théorème. Sous (Ho), la variable aléatoire F — 2 suit la loi de 
R 


Snedecor à (k — 1,n — k) degrés de liberté. 


ns 
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DÉCISION 

Soit a le risque de première espèce choisi. On lit dans la table de 
Snedecor la valeur f,, telle que P(F > f,) = @. 

> Sif < fx, on ne peut pas écarter (Ho). 


»> Sif > fa, on rejette (Ho) au risque «, c’est-à-dire que l’on attribue 
une influence significative au facteur étudié. 


À la différence de l’utilisation des tables de Snedecor pour comparer deux variances 
observées (cf. chap. 12), le quotient est à effectuer dans un ordre imposé, les degrés 
de liberté ne sont pas les mêmes, et le risque «& du test est le même que celui de la 
légende de la table. 


13.3 ANALYSE DE LA VARIANCE À DEUX FACTEURS 


(ÉCHANTILLONS DE PLUSIEURS OBSERVATIONS) 
Problématique 


On étudie simultanément deux facteurs : un facteur À à p modalités et 

un facteur B à q modalités. Pour chacune des pq modalités du couple 

(A,B), on dispose d’un échantillon E;; avec 1 <i << petl1 < j <q. 

Ces échantillons sont supposés extraits de populations gaussiennes ayant 

la même variance. Ils sont aussi tous de même taille n (avec n > 1). 

L'analyse de variance à deux facteurs permet de comparer les moyennes 

de ces pq échantillons et de tester : 

— l'influence du facteur À seul ; 

— l'influence du facteur B seul ; 

— l'influence de l’interaction des deux facteurs : on dit qu’il y a interac- 
tion lorsque l’influence d’un facteur sur la moyenne des populations 
est différente en l’absence ou en présence de l’autre facteur. 


Il y a donc trois hypothèses nulles, et par conséquent trois tests : 

(Ho) : le facteur À n’a pas d’influence sur la moyenne des popula- 
tions ; 

(Ho) : le facteur B n’a pas d’influence sur la moyenne des popula- 
tions ; 

(Ho) A8 : il n’y a pas d'interaction entre les facteurs À et B. 


Variance résiduelle ; variance factorielle 


> Pour chaque échantillon E;;, on calcule la moyenne x;; et la varian- 


2 


ce estimée s° je 
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> La réunion de tous les échantillons a pour taille npq, pour moyenne 


_ 1 . 
x et pour variance estimée 52. Ona:x = — ) n Xi. 
npq 1<i<p 
I<j<gq 


> De façon analogue au cas de l’analyse de variance à un facteur, 
on définit la variance résiduelle par la moyenne des variances esti- 
mées : 


1 
2 2 
SR = -——— ) (n —1)s5;. 
. (n = 1) pq 1Si<p ue 


1<j<q 
Sin > 1, on a 5? > (0. 


> On définit de même la variance factorielle par : 


>. nl Gi; ua +). 


pq —1 1<i<p 


1<j<q 


Théorème d’analyse de la variance 


(npq — 1) 5? = (n — 1)pq 52 + (pq — 1) 5%. 


s? est donc une moyenne pondérée de 5% et de 5%. 


Décomposition de la variance factorielle 


Pour étudier l’influence de chacun des deux facteurs À et B et celle de 
leur interaction, on définit : 
— les moyennes conditionnelles 


ie LE 
Xje = — ) Xij et Xj = — ) Xij 
di Pi 
x. est la moyenne de la i-ième ligne ; x. ; la moyenne de la j-ième colon- 
ne. 


— la variance conditionnelle due au facteur A seul 
2 l . 2 
SA = —— D _qn (Xi. — X) 
p—-1# 
— la variance conditionnelle due au facteur B seul 


1 — 
s£ = DSL (X.; Sp 
q = 


De 
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— la variance conditionnelle due à l'interaction de A et de B 
SE 
(=D (0; 


1<j<q 


, n Gi; — Xie — Xe; LA) 


<i<p 


Théorème de décomposition de la variance factorielle 


(pq —1)5% = (p—Ds4+(g —1)52 +(p—1)(q — 1)sÂy 


2 éré à 5 2 
s7 est donc une moyenne pondérée de s;, s4 et de 5% x. 


Tests des hypothèses nulles 


S2 
»> Sous (H5)1, la variable aléatoire F4 — ra suit la loi de Snedecor à 
R 
(p — 1,(n — 1) pq) degrés de liberté. 
S2 
»> Sous (Ho)g, la variable aléatoire Fr — mA suit la loi de Snedecor à 
R 


(g — 1,(n — 1)pq) degrés de liberté. 


$2 
> Sous (Ho)4g, la variable aléatoire F18 = ra suit la loi de 


R 
Snedecor à ((p — 1)(q — 1),(n — 1)pq) degrés de liberté. 


Pour mémoriser les degrés de liberté : le premier est associé au numérateur et le 
second au dénominateur, et ce sont les coefficients qui figurent dans les théorèmes 
de décomposition. 


Le test de chaque hypothèse nulle s’en déduit comme d’habitude. 


13.4 ANALYSE DE LA VARIANCE À DEUX FACTEURS 


(ÉCHANTILLONS D'UNE SEULE OBSERVATION) 


Problématique 


Si chaque échantillon ne comporte qu’une seule observation (soit 
n = 1), les 5, sont nulles et on a 5% — 0. Les quotients effectués précé- 


demment n’ont donc plus de sens. 
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Mise en place du test et décision 


> Le théorème d’analyse de la variance devient : 


(pq — Ds? = (p — 1)s4 + (g — 15% + (p — 1)(q — Ds 


et permet d’obtenir 5 8 après avoir calculé 52, A PE 
$s2 
> Sous (Ho)A4, la variable aléatoire F4 — — suit la loi de Snedecor 
AB 


à (p — 1,(p — 1)(q — 1)) degrés de liberté. 
2 


S 
> Sous (Ho)g, la variable aléatoire FR — — suit la loi de Snedecor 


AB 
à (q — 1,(p — 1)(q — 1)) degrés de liberté. 


> Le test de (Ho) A et (Ho)g s’en déduit comme d’habitude, mais on ne 
peut pas tester (Æ6)48. 


/ Comparaison de plusieurs variances expérimentales : 


test de Bartlett 


Dans l’analyse de variance qui précède, les populations (gaussiennes) 
sont supposées de même variance. En toute rigueur, il faut tester cette 
hypothèse au préalable, même si c’est une étape souvent omise. On 
peut en particulier le faire avec le test de Bartlett. 

Les notations sont inchangées et l’hypothèse nulle s’écrit : 


OR DS C2 
(Ho) : 01 = 0 =... — 07. 


+ Théorème 


Sous (Ho), la variable aléatoire définie par : 


k 
B = cm» In $2 = Xe 1) In S?] 


Cul 


1 1 1 
dos ne _—. 


i=] 

suit à peu près une loi du ° à v = k — 1 degrés de liberté. 

° DÉCISION 

On calcule la valeur b prise par la variable aléatoire B. Le risque a 
étant choisi, on lit dans la table 4 la borne x? telle que 


PIB =). 
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> Sib < X?, (Ho) ne peut pas être rejetée et on peut considérer 
que les populations ont la même variance ; 


> sib > x2, (Ho) est rejetée avec un risque d’erreur égal à «. 


& MOTS-CLÉS 


> Décomposition de la variance 


Y 


Variance factorielle 


> Variance résiduelle 


EXERCICES 


13-1 On veut savoir si l’addition de substances adjuvantes à un vaccin 
modifie la production d’anticorps. Pour cela, on mesure les quantités 
d’anticorps produites par des sujets après administration de quantités 
égales du vaccin, additionné ou non d’une substance adjuvante. On a 
obtenu les taux : 
— sans substance adjuvante : 1,3,3,0,1 ; 
— avec de l’alumine : 2,4,5,4,3,6 ; 
— avec des sels de calcium : 3,3,4.,5 ;: 
— avec des phosphates : 1,4,2,3,3. 
a) Quelle(s) hypothèse(s) faut-il faire pour pouvoir appliquer la tech- 
nique d’analyse de la variance à la résolution du problème posé, La vali- 
dité de ces hypothèses est-elle importante dans le cas présent ? 
b) Ces hypothèses étant satisfaites, l’efficacité du vaccin dépend-elle : 
1) de la présence de substances adjuvantes ? 
2) de leur nature ? 
c) Si les hypothèses précédentes n’avaient pas été satisfaites, quelle tech- 
nique statistique aurait-on pu appliquer ? 


13-2 On a étudié la durée de développement (en jours) d’un parasite à 
l’intérieur d’un organisme hôte, en fonction de la température d'élevage 
(en degrés C). 

Les résultats obtenus sont groupés dans le tableau qui suit. 

La température a-t-elle une influence sur la durée de développement du 
parasite ? 
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Température | Nombre d'animaux Durée de développement 


Moyenne | Écart type estimé 


16 32 81 6,8 
20 33 52 5,2 
23 31 46 6,7 


13-3 On étudie l’activité d’un enzyme sérique, la 5’-nucléotide- 
phosphodiéstérase (PDE), en fonction de différents facteurs dans 
lPespèce humaine. Les résultats sont exprimés en unités internationales 
par litre de sérum. On admettra l'hypothèse de normalité et d’égalité des 
variances des populations parents. 

a) Chez deux groupes de femmes, enceintes ou non, on obtient les résul- 
tats suivants : 

femmes non enceintes 

SOLE ON 27680 NO 920 2 8721 
LS 7 ETES 221 

femmes enceintes 

49.555 : 46: 54: 39: 54: 27% 39-541: 41l.: 46: 
39,535 

La grossesse a-t-elle une influence significative sur l’activité de la PDE ? 
b) Afin d’évaluer la précocité de l’augmentation d’activité enzymatique 
lors de la grossesse, on pratique des dosages chez des femmes enceintes 
à différentes semaines d’aménorrhée. 

On obtient les résultats suivants (les échantillons sont indépendants) : 


4sem. | 5sem. 6 sem. 7 sem. 8 sem. 
7,2 4,9 10,4 4,6 6,1 
4,3 4,8 4,6 5,6 11,4 
5;5 4,7 8,4 8,3 8,2 
4,6 5,4 6,1 6,9 5;7 
4,7 4,7 8,1 4,5 6,6 
5,5 4,7 5,4 4,7 6,6 
6,6 6,2 6,7 6,7 6,3 
5,3 5,6 7,5 4,8 5,9 
54 3:2 6,4 5,0 5,8 
3,9 6,1 5,6 5,0 4,8 
5,5 6,7 6,3 5,3 9,1 
2,7 5,5 7,7 7,8 13,2 


L'âge de la grossesse a-t-il une influence sur l’activité de l’enzyme ? 
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13-4 On étudie l’activité d’un enzyme chez des sujets jeunes en fonc- 
tion de l’âge et du sexe. Les résultats sont les suivants : 


âge moins de 12 ans plus de 12 ans 
sexe 
4,9 ; 2,9 ; 2,7 ; 39 2;1 ; 2292 à T1 29 
garçons 46 ; 33 ; 59 ; 48 5,0 ; 3,5 ; 24 ; 44 
4,1 ; 3,5 ; 7,2 ; 6,1 2,1 ; 3,0 ; 3,9 ; 56 
4,5 ; 69 ; 4,0 ; 54 24 ; 36 ; 48 ; 3,9 
filles 1,9 ; 36 ; 48 ; 3,3 5,5 ; 5,0 ; 6,8 ; 2,2 
7,5 ; 58 ; 44 ; 6,0 3,1 ; 5,0: 41 : 47 


L'activité enzymatique moyenne dépend-t-elle de l’âge, du sexe ? 


13-5 Cherchant à réaliser une émulsion la plus stable possible, un expé- 
rimentateur associe les émulsionnants a,b,c,d aux corps gras a, 5,7. La 
stabilité des émulsions obtenues avec chacune des 12 associations est 
notée de 0 à 10: 


a b c d 
œ 2 1 3 1 
3 2 3 2 
Y 3 4 5 3 


La stabilité est-elle significativement différente, au risque 2,5 % : 
— en fonction du choix du corps gras ? 
— en fonction du choix de l’émultionnant ? 


SOLUTIONS 


13-1 a) Il faut supposer que les résultats appartiennent à des populations 
gaussiennes et de même variance. 

Ces hypothèses sont importantes ici car il s’agit de petits échantillons 
d'effectifs inégaux. 

b) 1) Étudions d’abord l’effet de la présence d’une substance adjuvante, 
quelle qu’en soit la nature. Pour cela, on regroupe tous les résultats obte- 
aus en présence d’adjuvants : 


sans adjuvant: nn, —5 ; x1 = 1,6 : 5? = [;8 
avec adjuvant : n2 = 15 5 Xx2 & 3,47 ; & 1,695 
total : n = 20 : k—3 à 52 & 2,316 
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1 
La variance résiduelle vaut donc : de — RE + 1453) & 1,72 
La variance factorielle peut se calculer : 


> soit avec sa définition : 


1 
Se = [LG 2) +152 x) ] 13,07 
> soit à partir du théorème d’analyse de la variance : 


1952 — 185% + se 
E 
D'où : f = + = 7,60 
SR 


On teste (Ho): l’efficacité du vaccin ne dépend pas de la présence de 
substances adjuvantes. 


S2 
Sous (Ho), on sait que F — suit la loi de Snedecor à (1 ; 18) d.d.l. 
R 


Le nombre f, tel que P(F > fs) = à est f0,05s = 4,41 pour a = 0,05. 
Comme f > f0,0s, l'influence de la présence d’adjuvants est significati- 
ve au risque 5 %. 


Comme il n'y a que deux échantillons, on pouvait aussi comparer les deux 
moyennes expérimentales (cf. chap. 12). 


2) Pour tester la nouvelle hypothèse nulle : 
(Ho) : l'efficacité du vaccin ne dépend pas de la nature de l’adjuvant, on 
dispose de trois échantillons : 


avec alumine : ni; =6 | : ae =? 
avec calcium : n2 = 4 so S & 0,917 
avec phosphates : 73 = 5 : x3 = 2,6 : = ts 
total : n = 15 UN x S3:47 ee 1,005 


1 
La variance résiduelle vaut donc : de — LES + 35e + 453) & 1,50. 
La variance factorielle peut se calculer 


> soit avec sa définition : 


1 
s2 = : [6x1 — x)? +462 — x)? + 5(%3 — 7)7] & 2,89 
> soit à partir du théorème d’analyse de la variance : 


1452 = 125 + De 
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D 


sn SF 
A 
R 
S2 
Sous (Ho), on sait que F — g suit la loi de Snedecor à (2 ; 12) d.d.l. 


R 
Le nombre f, tel que P(F > f) = & est 0.05 = 3,89 pour a = 0,05. 
Comme f < f005s, on ne rejette pas (Ho) : l'efficacité du vaccin ne 
dépend pas de façon significative de la nature de l’adjuvant. 
c) Si les hypothèses de normalité et d’égalité des variances n’avaient pas 


été satisfaites, on aurait pu appliquer un test non paramétrique (cf. chap. 
16), soit ici le test de Kuskall et Wallis. 


13-2 Si l’on admet que les distributions des durées de développement 
sont gaussiennes et de même variance, on peut appliquer l’analyse de la 
variance à un facteur et tester l'hypothèse nulle : 

(Ho) : la température n’a pas d’influence sur la durée de dévelopement 
du parasite. 
On a immédiatement la variance résiduelle : 

1 
93 


La moyenne x de la réunion des trois échantillons s’obtient à partir des 
moyennes x; des échantillons : 


32 x 81 + 33 x 52431 x 46 
ne Se POS 


me — [31 x 6,82 + 32 x 5,22 +30 x 6,7] & 39,20. 


D'où la variance factorielle : 


il 
— ; 22 (81— x)? +33(52— x)° +31 (46 —x)°] & 11 146,48, 


52 
puis : f = + % 284,36. 

SR 
S 
2 


Sous (Ho), on sait que F = s suit la loi de Snedecor à (2 ; 93) degrés 


R 

de liberté. Le nombre f, tel que P(F > f,) = a est: 

Jo.05s © 3,1 pour à = 0,05 ; fo.025 © 3,8pour a = 0,025. 

Comme f > f0,025, l'influence de la température est significative au 
risque 2,5 % (et même sans doute à des risques beaucoup plus faibles !). 
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13-3 a) On dispose de deux échantillons : 


femmes non enceintes: n1=15 ; x, &2,17 ; “ & 0,387 
femmes enceintes : n=13 ; x&4,29 ; ce & 0,651 
total : n = 28 : XR3,15 ; 52% 1,655 


1 
La variance résiduelle vaut donc : 52 R = = (Er + 1254) & & 0,51. 


La variance factorielle peut se calculer 


> soit avec sa définition : 


1 
= ' [15G1 — 33° + 1362 — x)°] & 31,47 
> soit à partir du théorème d’analyse de la variance : 


DS D6s se. 


2 
D'où : f = + 61,9. 
SR 
On teste (Ho) : la grossesse n’a pas d’influence significative sur l’acti- 
vité de la PDE. 
Sr 
62 


Sous (Ho), on sait que F = s suit la loi de Snedecor à (1 ; 26) degrés 


R 
de liberté. Le nombre f, tel que P(F > fa) = a est: 


Jo.05 © 4,23 pour a = 0,05 ; f0.025 © 5,66 pour a = 0,025. 
Comme f > f0.025, l'influence de la grossesse est significative au risque 
2,5 %. 


& Comme il n'y a que deux échantillons, on pouvait aussi comparer les deux 
é moyennes expérimentales (cf. chap. 12). 


b) On dispose de cinq échantillons : 
à 4 semaines: nj—=12 ; x, &5,10 : & 1,411 


à 5 semaines: n2—=12 ; x Æ 5,21 à So & 0,850 
à 6 semaines: n3—=12 ; x: © 6,93 : e & 2,495 
à 7 semaines: na —=12 ; x4 © 5,77 s “ & 1,742 
à 8 semaines: ns —12 ; xs—7,475 ; : & 6,522 
total : n = 60 : x%6,10 : & 3,341 


La variance résiduelle vaut donc : 


1 
a Us + 1152 + 1152 + 1152 + 1152) & 2,60. 
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La variance factorielle peut se calculer 


> soit avec sa définition : 


1 
ne al2@ x) +... +125 —x)] & 13,47 
>» soit à partir du théorème d’analyse de la variance : 


5952 — 555% + 452. 


2 
D'où :f = +5,17. 
s 
R 
On teste (Ho) : l’âge de la grossesse n’a pas d’influence significative sur 
l’activité de la PDE (égalité des cinq moyennes théoriques). 
S2 
Sous (Ho), on sait que F = _ suit la loi de Snedecor à (4 ; 55) degrés 
R 
de liberté. Le nombre f, tel que P(F > f,) = a est: 
fo.05 & 2,5 pour & — 0,05 ; f0.025 & 3,0 pour a — 0,025. 
Comme f > f0,025, l'influence de l’âge de la grossesse est significative 
au risque 2,5 %. 


13-4 Il s’agit d’analyse de la variance à deux facteurs (sexe et âge). 


+ Calculs 


Chaque échantillon à pour taille n = 12. On obtient pour les échan- 
tillons : 


Âge Moins de 12 ans Plus de 12 ans 

Sexe 
Garçons X1,1 © 4,49 X1,2 © 8,18 

D _ 

SF, & 1,894 ñ © 1,783 
Filles X2,1 © 4,84 X2,2 © 4,26 

LEE & 

$. 4 © 2,497 2 © 1,746 


et pour la réunion des 4 échantillons : 
+4,19: 502045. 


La variance résiduelle vaut donc : 


l 
s$ — at +52 +531 +53) & 1,98. 
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D’après le théorème d’analyse de la variance : 475? = 445% + 35%, on 
déduit : 54 & 6,13. 
Pour décomposer cette variance factorielle, on calcule : 


> les moyennes conditionnelles : 


_ X1,1 + X1,2 = X2,1 + X2,2 

Xe = ———"* #$3,84 ; xx = 7" KR4,55 
2 2 

X1.1 + X X12 + X: 

ie ler nn te 

2 2 
> Ja variance conditionnelle due au facteur À seul (sexe) : 
2 x 12 


2— 
Sa — 


LG D? +277] 6,09. 


> la variance conditionnelle due au facteur B seul (âge) : 


2.x 12 
8 = [Ga 7 + Ga 77] # 10,74. 


> la variance conditionnelle due à l’interaction de À et B à partir de la 
décomposition de la variance factorielle : 35% = 54 + 5% +522 
d’où : sn & 1,58. 

° Tests 


> Sous l’hypothèse (Ho)4 « le sexe n’a pas d’influence sur l’activité 
S2 
enzymatique moyenne », la variable aléatoire Fa = ra suit la loi de 
R 
Snedecor à (1 ; 44) degrés de liberté. 


Le nombre f, tel que P(F > f,) = @ est foos = 4,1 pour 
a = 0,05. 

Comme f4 © 3,08, l'influence du sexe n’est pas significative au 
risque 5 %. 


> Sous l’hypothèse (Ho)g « l’âge n’a pas d'influence sur l’activité 
S2 
enzymatique moyenne », la variable aléatoire FR — suit la loi de 
R 
Snedecor à (1 ; 44) degrés de liberté. 


Comme fr © 5,42, l'influence de l’âge est significative au risque 
5%. 


> Sous l'hypothèse (H6)4g « il n’y a pas d’interaction entre l’influen- 


S2 
ce du sexe et celle de l’âge », la variable aléatoire F4g = Fa suit la 

R 
loi de Snedecor à (1 ; 44) degrés de liberté. 


Comme f18 < 1, l'hypothèse nulle est acceptée. 
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13-5 Nous pouvons appliquer l’analyse de la variance à deux facteurs en 
tenant compte du fait que tous les effectifs sont égaux à 1. 


Une confusion courante consiste à utiliser (sans comprendre !) un test du x2. Pour 
5 éviter une telle erreur, regardez le sens du nombre qui figure dans chaque case : 
W 


ici, c'est une mesure ; dans un test du y, il s'agit d'un effectif. 
° Calculs 
On obtient immédiatement les moyennes conditionnelles : 
Kim 1:79 0 SN qu 375 
%1%2,67 1% 82,33; x V3067 5 Xa—2 
et pour l’ensemble des observations : 
x#2,67 et 52& 1,33 


La variance factorielle due au choix du corps gras est : 


4 
s _ ;L@ x) EG x) (re | % 4,08. 


La variance factorielle due au choix de l’émulsionnant est : 


3 2 
= ; la 2)? + Ge — 2)2 + (res — 7)2 + (a —7)?] & 1,56. 


La variance factorielle due à l’interaction des deux facteurs se calcule à 
partir de la décomposition de la variance factorielle : 


ist Se OS 2 dois, 0.11 
° Tests 


> Sous l'hypothèse (Ho)4 « le choix du corps gras n’a pas d’influence 

S2 

sur la stabilité », la variable aléatoire F1 = - suit la loi de 
AB 

Snedecor à (2 ; 6) degrés de liberté. 

Le nombre f, tel que P(F > f,) = a est fo,02s = 7,26 pour 

a = 0,025. 

Comme f1 © 13,36 > 7,26, l'influence du choix du corps gras est 

significative au risque 2,5 %. 


> Sous l’hypothèse (Ho)s « le choix de l’émulsionnant n’a pas d’in- 
_ ; a 
fluence sur la stabilité », la variable aléatoire F8 = + suit la loi de 
AB 


Snedecor à (3 ; 6) degrés de liberté. 
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Le nombre f, tel que P(F > f,) = « est fo.025 = 6,60 pour 
a = 0,025. 

Comme fg & 5,09 < 6,60, l'influence du choix de l’émulsionnant 
n’est pas significative au risque 2,5 %. 

Mais elle significative au risque 5 % car fo.0s = 4,76 et fe > fo.05. 


à 
h 


CHAPITRE 


Régression linéaire 


14.1 Estimation ponctuelle des paramètres d'une droite de régression 


14.2 Intervalles de confiance 


Z 
à 


14.3 Comparaison des paramètres d'une droite de régression expérimen- 
tale à des valeurs théoriques 


P 


14.4 Comparaison de deux droites de régression expérimentales 


> Estimer, par un nombre ou un intervalle, les coefficients d'une droite de 
régression, et les comparer à des valeurs de référence 


> Apprécier par un intervalle la fiabilité d'une estimation de Ÿ obtenue 
avec une droite de régression 


> Comparer les vitesses de réaction de deux grandeurs Y et Ÿ’ aux varia- 
tions d'une même grandeur contrôlée X 


OBJECTIFS 


14.1 ESTIMATION PONCTUELLE DES PARAMÈTRES 
D'UNE DROITE DE RÉGRESSION 


Problématique 


Certaines expériences conduisent à considérer en même temps deux 

variables X et Y. Deux cas sont possibles : 

> X et YŸ sont deux variables aléatoires dont les valeurs sont détermi- 
nées simultanément ; 

> X est une variable contrôlée par l’expérimentateur, c’est-à-dire que 
ses valeurs x; sont supposées connues sans erreur, et donc reproduc- 
tibles à l’identique. 

Et Y est une variable aléatoire qui est liée à X, et donc dont les valeurs 

fluctuent quand on reproduit le même x:;. 
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Nous allons nous limiter à ce seul cas, avec l’objectif de réaliser un ajus- 
tement affine entre Y et X. Pour ceci, nous formulons les hypothèses qui 
suivent. 

Pour toute valeur X = x; fixée, les diverses valeurs de Y définissent une 
variable aléatoire Y;. On suppose que les Y; suivent des lois normales et 
que : E(Y;) = ax; + 5 et V(Y;) = o° (valeur indépendante de x;) 
Les valeurs «, Ë et o ne sont en général pas connues et vont être esti- 
mées. 


Ilexiste une autre présentation. On suppose que Ÿ = aX + B +€ et que pour toute 
valeur fixée de X, € suit une loi normale avec E{e) = 0 et V(e) = o2.lci,e s'appel- 
le un résidu. C'est pourquoi o? s'appelle la variance résiduelle de Y. 


Estimations ponctuelles de « et de 5 


À n valeurs x1,...,x» de X, l'expérience a associé n valeurs y1,...,Y» 
de Y. À partir de l'échantillon constitué par les n couples 
(x1,Y1),...,(%n, Yn), On peut calculer (cf. chapitre 2) la droite de régres- 
sion y — ax + b et le coefficient de corrélation r. 


Soit À et B les variables aléatoires qui prennent les valeurs a et b quand 
on répète les échantillons de taille n. 


Théorème 
ECO ED) 


a et b sont donc des estimations ponctuelles sans biais de « et de 6. 


Estimation ponctuelle de la variance résiduelle o° 


Dans le chapitre 2, après détermination de la droite de régression 
y = ax + b à partir d’un échantillon de taille n, nous avons déjà écrit la 
décomposition de la variance : 


V(Y) = variance expliquée + variance résiduelle 


Théorème. L’estimation de o? peut se faire sans biais par : 
? 


5 
ren 


Soie == (7520) 
b=il 


x variance résiduelle de l’échantillon 


n —2 n —2 
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Dans cette expression, s2(y) = +102 7) — (5)? est la variance de 
l'échantillon des y;. Le 

Dans la suite, s2(x) = (34) — (x)? est la variance de l’échan- 
tillon des x;. = 


Rappelons qu'il ne faut pas confondre les variances s2 des échantillons et les varian- 
ces estimées s?,et qu'on a :n 82 = (n — 1) s? 


14.2 INTERVALLES DE CONFIANCE 


Intervalle de confiance de la pente « 


? 
. 72 CL © A = 
Théorèmes. La variance de À est égale à AT Elle peut être esti- 
n s2(x 
2 
s 

2 2 R 

mée par 54 = - 
PA n 52) 


: Re A—a 
La variable aléatoire T — 


de liberté. 


suit la loi de Student à n — 2 degrés 


Un risque @ étant choisi, on lit dans la table 3 la valeur #,, telle que 
P(IT| > ta,) = «1. Et on peut dire, au risque &, que la pente théorique 
a appartient à l'intervalle de confiance : 


Ja — fa,54, a +ta sal. 


Intervalle de confiance de l’ordonnée à l'origine 5 


1 2 
Théorèmes. La variance de B est égale à a( 4 ): Elle 
n 2 


1 4 s2 L 
x ve 2 2 R 2 
eut être estimée par S2 = $ 27 = ) JF 
P PAT 58 1É xs) HAE) : 


œil 


La variable aléatoire T — 


de liberté. 


Ê suit la loi de Student à n — 2 degrés 
SB 
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De même que précédemment, on peut dire, au risque a choisi, que l’or- 
donnée à l’origine théorique B appartient à l’intervalle de confiance : 

Jb — la, SB,D a la SBL: 
Intervalle de confiance d’une valeur individuelle 
estimée 


L’ajustement affine étant réalisé peut servir à prévoir la valeur attendue 
pour Ÿ quand l’expérimentateur fixe X = x. L’estimation ponctuelle de 
cette valeur est Yo = axo + b. 


© Attention, l'utilisation d'une valeur estimée ÿ n'est justifiée que si r? est voisin de 1 
(bon modèle) et si x, se situe dans la zone où le modèle a été validé. 


Au risque «1, l'intervalle de confiance de la valeur prise par Y est : 


” 1. (xo—x)\ = 1 (xo—x) 
— RE RES E AT A (D LE SRE Re 
F nf Lors 20) VO + la] SR Léo 120) 


Où fa, vérifie P(IT| > fa,) = @, lorsque T suit une loi de Student à 
n — 2 degrés de liberté. 


14.3 COMPARAISON DES PARAMÈTRES D'UNE DROITE 
DE RÉGRESSION EXPÉRIMENTALE 
À DES VALEURS THÉORIQUES 


Problématique 


Les notations sont les mêmes que précédemment. On connaît les valeurs 
théoriques « et { relatives à la population et les valeurs a et b d’une 
droite de régression obtenue à partir d’un échantillon de taille n. On va 
comparer successivement a et à, puis b et f. 


Comparaison des pentes 


(Ho) : la différence entre la pente théorique a et la pente expérimentale 
a est explicable par les fluctuations d’échantillonnage. 


ie suit la loi de Student à n — 2 d.d.I., on calcule 
SA 


A 
Comme T — 


ŒE 


SA 
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D'autre part, le risque de première espèce a; étant choisi et le d.d.l. 
connu, on détermine avec la table 3 le nombre f,, tel que 
P(IT1 2 to) = @i. 


> Sit E]—ta,tal; (Ho) ne peut pas être rejetée. 
> Sit É] — fatal, (Ho) est rejetée au risque «1. 


On peut tester à = 0.Cela revient à dire que E(Y) ne dépend pas de X.On dit 
parfois que la régression est significative si l'hypothèse « = 0 est rejetée. 


Comparaison des ordonnées à l’origine 


(Ho) : la différence entre f et b est explicable par les aléas de l’échan- 
tillonnage. 


Comme T — B suit la loi de Student à n — 2 d.d.I. le test est ana- 


SB 
logue au cas précédent. 


On peut tester B = 0. Cela revient à dire que, au niveau de la population, la 
droite de régression passe par l'origine. 


14.4 COMPARAISON DE DEUX DROITES DE RÉGRESSION 
EXPÉRIMENTALES 


On se limitera à la comparaison des pentes. 


Problématique 


Sur une population P, des variables X et Y vérifient les hypothèses for- 
mulées en début de chapitre. 

Sur une population P’ une variable aléatoire Y” est liée à la même varia- 
ble contrôlée X, avec les mêmes hypothèses. 

De chaque population, on extrait un échantillon de tailles respectives n 
et n’. Les pentes des droites de régression obtenues sont respective- 
ment : a et a’, et les estimations ponctuelles de la variance résiduelle : 
ets. 

On désire comparer les pentes a et a/ des droites de régression théo- 
riques. 

On suppose que les variances résiduelles o? et a’? sont égales, ce qui 
peut faire l’objet d’un test préalable (cf. en fin de chapitre). 
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La variance résiduelle commune aux deux populations est alors estimée 


par la moyenne pondérée : 


2 —2)s$ + m2) 
n+n —4 


Comparaison des pentes de deux droites de régression 


(Ho) : à = à. 


Théorème. Sous (Ho) et les hypothèses indiquées précédemment, la 
A — À’ 
variable aléatoire T = suit la loi de 


> Les 1 ) 
“ ns2(x) n's!2(x) 


Student à n + n' — 4 d.d.l. 


Dans cette expression, ge (x) est la variance des x; de l’échantillon extrait 
de P, c’est-à-dire concernant X et Y ; EVE est la variance des x’ de 
l’échantillon extrait de P’, c’est-à-dire concernant X et Y’. 


On calcule f, valeur prise par 7. 
Le risque de première espèce «1 étant choisi et le d.d.I. connu, on déter- 


mine avec la table 3 le nombre t,, tel que P(IT| > f4,) = @1. 
> Sit E] — fatal; (Ho) ne peut pas être rejetée. 


> Sit #]— fatal, (Ho) est rejetée au risque «1. 


po) Comparaison de deux variances résiduelles 


Dans le paragraphe 4, avant de comparer les pentes des deux droites 
de régresion, il faut au préalable tester l’égalité des variances rési- 


duelles o? et o’2. On a alors : 
(Ho) : 02 = 02. 


Théorème. Sous (A) et les hypothèses déjà indiquées, la variable 
2 


S 
a suit la loi de Snedecor à (n — 2,n/ — 2) degrés 
R 


aléatoire F = 


de liberté. 


Le fonctionnement du test est analogue à la comparaison de deux 
variances expérimentales (cf. chapitre 12). 


Exercices 197 


& MOTS-CLÉS 


> Variance expliquée 
> Estimation des coefficients d'une droite de régression 


> Comparaison de deux droites de régression de Ÿ en X et de Y’en X 


EXERCICES 


14-1 On a mesuré l’absorption de la lumière par des solutions de 
4-nitrophénol, de concentrations croissantes. On a obtenu les résultats 
suivants (pour une lumière de longueur d’onde 400 nm) : 


Concentration € 1 X 10-5 | 2X 105 | 3 X 105 | 4X 105 | 5 x 10 
(en mol/L) 


Absorbance A 0,1865 0,3616 0,5370 0,7359 0,9238 


a) Vérifiez graphiquement qu’on peut admettre l’existence d’une rela- 
tion affine entre l’absorbance et la concentration. 
b) En supposant que les hypothèses du cours sont satisfaites, estimez les 
paramètres de la droite de régression de A par rapport à C 

1) ponctuellement, 

2) par des intervalles de confiance au risque 5 %. 


14-2 Le produit ionique d’un solvant (pK) est lié à sa constante dié- 
lectrique (€) par une relation du type : 


pk == +8 (1) 


On connaît les résultats suivants : 


Solvants € PK. 
eau 78,5 14 
éthanol 24,3 19,1 
isopropanol 18,3 20,8 
méthanol 32,6 16,7 


a) Vérifier graphiquement la validité de la relation (1) pour ces solvants. 
b) Estimez les valeurs de « et de 6 
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1) ponctuellement, 

2) par des intervalles de confiance au coefficient de sécurité 0,95. 
c) Pour le n-propanol, on a : € = 20,1. Estimez son pK, 

1) ponctuellement, 

2) par un intervalle de confiance au risque 0,05. 


14-3 Un corps chimique se décompose selon une cinétique du premier 
ordre caractérisée par l’équation : Q = Qo e“! où : 
Q désigne la quantité de corps restant à l’instant f, 
Oo la quantité initiale, 

k la constante de vitesse de la décomposition. 

On dispose des données expérimentales suivantes : 


t (min) 1 2 3 4 5 6 7 8 9 10 


Q (nanomoles) | 416 | 319 | 244 | 188 | 144 | 113 | 85 66 50 | 41 


En se ramenant à une régression affine, estimez la valeur de k ponctuel- 
lement et par un intervalle de confiance au risque 5 %. 


14-4 Reprenez les données de l’exercice 14-1. Peut-on admettre que la 
relation entre l’absorbance et la concentration est linéaire, c’est-à-dire 
que, au niveau de la population, la droite de régression passe par l’origi- 
ne (risque 5 %) ? 


14-5 Reprenez les données de l’exercice 14-1. Comparez la valeur de la 
pente a obtenue à la valeur a = 18 100 L/mol fournie par les ouvrages 
de référence sur le sujet (risque 5 %). 


14-6 Pour une série de 9 composés organophosphorés, on a étudié la 
relation entre la constante d’inhibition de la cholinestérase (K;) et un 
paramètre B, caractérisant la basicité des composés. 

La relation a été exprimée sous forme d’une droite de régression : 


Ki = (8,1 +3,1)B, + (—13,0 +5,7) 


(les paramètres sont donnés sous la forme : valeur estimée + écart type). 
La régression est-elle significative ? 


14.7 Reprenez les données de l’exercice 14-1. Une autre expérience a 
donné les résultats suivants : 


Concentration C (en mol/L) 2,5 x 10° 5x 10 10 x 10 


Absorbance A 0,396 0,812 1,608 


Comparez les pentes des deux droites de régression. 
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SOLUTIONS 


14-1 a) En reportant sur un gra- 
phique les points (C;,A;), on ob- 
serve qu’ils sont très bien alignés. 
On peut donc admettre l’existence 
d’une relation affine entre À et C. 


1 2 3 4 5 
C en 10° mol/L 


Figure 14-1 


b) 1) Soit À = aC + b l'équation de la droite de régression (expérimen- 
tale) de À par rapport à C. 
On peut obtenir directement avec une calculatrice : 


a = 18 489 : b = —0,005 71. 
Mais pour la suite, divers résultats intermédiaires seront nécessaires : 
C =3 x 10 : (C2 10 
A = 0,548 96 ; s2(A) = 0,0684 
r 0,999 66: 52 = — — r2)52(A) & 7,7457 x 1075 
= 
2) * Soit À la variable aléatoire qui prend la valeur a. Sa variance peut 
2 
A HER D SR y PTE y 
être estimée par 54 — ns2(C) & 774 570. D'où : 54 & 278,3. 
AO | 

Comme T = suit la loi de Student à 3 d.d.I., le nombre 10,05 tel 


SA 
que P(IT| > 10.05) = 0,05 est f0,05 = 3,182. 
Au risque 5 %, la pente théorique « appartient donc à l’intervalle de 
confiance : 
Ja — 1005 SA , a + t0.05 SAL = 117 603 ; 19 3751. 
° Soit B la variable aléatoire qui prend la valeur b. Sa variance peut être 
2 
—. 1 C = 
estimée par 5? — a( + a) = 1,154 & 8,52 x 10 
D'où : 54 & 0,009 23. 
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Comme T = Er la loi de Student à 3 d.d.l., on peut dire, au 


SB 
risque 0,05, que l’ordonnée à l’origine théorique 5 appartient à l’inter- 
valle de confiance : 


Jb — 0,05 S8 ; b + 10,05 S8l = ] — 0,0236 ; 0,03511. 

14-2 a) D’après la formule (1), pK, 
1 

est une fonction affine de —. On repor- 
€ 


te donc sur un graphique les points de 
coordonnées : 


x= y=PKS 
E 
0,0127 14 
0,0412 19,1 Re 
0,0546 20,8 
0,0307 16,7 Figure 14-2 


On observe que les points sont bien alignés, ce qui confirme la relation 


D. 


b) 1) Avec une calculatrice, on peut obtenir, à partir des points du tableau 
ci-dessus, la droite de régression qui donne les estimations ponctuelles 
de a et de 5: 


a & 166,51 ; b & 11,86. 
Mais pour la suite, divers résultats intermédiaires seront nécessaires : 
x 20,0848 :;  s52(%)&2,34x10 * 
v=17,65 > s2())%6,56025 
n 

r#0,9953 mn 5 S— ee le r=)s2(y) &0,1237 

re 

2) ° Soit À la variable aléatoire qui prend la valeur a. Sa variance peut 
2 
être estimée par : se —= °R & 131,94, d’où : 54 © 11,49. 
n s2(x) 


ASE 
Comme T — = 


suit la loi de Student à 2 d.d.I., pour & = 0,05, on 
SA 


a : (0,05 = 4,303. Et l'intervalle de confiance, au risque 5 %, de la pente 
théorique « est : 117,08 ; 215,931. 
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° Soit B la variable aléatoire qui prend la valeur b. Sa variance peut être 
1 4 
timé 82 = 5821 = + — | & 0,19, d’où : sp & 0,44. 
estimée par : S% 4( + a) Où : Sp 
= 
SB 
coefficient de sécurité 0,95, que l’ordonnée à l’origine théorique 8 


Comme T — suit la loi de Student à 2 d.d.l., on peut dire, au 


appartient à l'intervalle de confiance : 19,98; 13,731. 
c)1) À partir de la droite de régression estimée : y © 166,51x + 11,86, 


on obtient l’estimation ponctuelle de y : 


1 
: it SR 
Si On sait que xo 20.1 


Vo & 20,1. 
2) Au risque 5 %, l'intervalle de confiance pour le pK, attendu pour 
le n-propanol est : 


LE Mise) 1 (xx)? 
ns Allen , Fo +t 2(1+- 
F vs à ( : n2@) Yo + {0,05.,/ SR + : + 0) 


Où 10.05 = 4,303 correspond à la loi de Student à 2 d.d.I. 
Tous calculs faits, on obtient l’intervalle : ]18,3; 22,0. 


Le pK, du n-propanol est égal à 19,4. Cette valeur appartient bien à l'interval- 
le de confiance obtenu. 
14-3 Le modèle proposé Q = Qoe 
In Q = In Oo — kt. 
La relation entre f et In Q est donc affine, et —K est la pente de la droite 
de régression théorique. 


peut aussi s’écrire 


> Avec x =tet y = In ©, à partir des 10 points (f;,1n Q;), on obtient 
successivement : 
x = 5,5; s(x) À 2,87 ; y & 4,85 ; s(y) & 0,75 ; r & —0,9998 
et de a & —0,2605 on déduit l’estimation ponctuelle : 
k = 0,2605 min-|. 
> On obtient ensuite : 
52 = (I — 72) 52(y) & 3,24 x 1074, puis : 
2 


DER ne —6 _ Æ 
ee) do et 54 © 1,98 x 107”. 
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Au risque 5 %, l’intervalle de confiance de la pente théorique 
s'écrit : 


Ja — 0,05 SA , a + 100554 


Où 10.05 = 2,306 correspond à la loi de Student à 8 d.d.I. 


On obtient ainsi pour intervalle de confiance de k 
J0,2559 ; 0,26511. 


14-4 On suppose que les hypothèses du cours sont satisfaites, et on écrit 
y = ax + Ü l’équation de la droite de régression théorique. 

On teste (Ho) : la différence entre la valeur obtenue b — —0,005 71 et 
la valeur théorique 5 = 0 est explicable par les aléas dus à l’échan- 
tillonnage. 


On sait que T = Po la loi de Student à n — 2 = 3 degrés de 


SB 

liberté. 
Ont LE & —0,62. 

SB 
Par ailleurs : 0,05 = 3,182. 
Comme ft €] — #0,05,/0.05{ , (Ho) n’est pas rejetée au risque 5 %. On peut 
donc admettre que la droite de régression théorique passe par l’origine, 
c’est-à-dire que la relation entre l’absorbance et la concentration est 
linéaire. 


14-5 L'hypothèse nulle s’écrit : 
(Ho) : la différence entre la valeur théorique à = 18 100 et la valeur 
expérimentale a = 18 489 est explicable par les fluctuations d’échan- 
tillonnage. 

A—-a 


On sait que T = suit la loi de Student à n — 2 = 3 d.d.l. 
SA 


= 


On calcule la valeur prise par T : t = = & 1,40. 


SA 
Par ailleurs : #0.,05 = 3,182. 
Comme f €] — #0,05,t0.05! ; (Ho) est acceptée. 
La valeur obtenue ne diffère pas significativement de la valeur de réfé- 
rence. 


14-6 Les informations fournies s’écrivent : 


SES OR — 
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L'hypothèse nulle à tester s’écrit (Ho) : à = 0. 
A— a 


On sait que T = suit la loi de Student à n —2 = 7 d.d.l. 


SA 


8,1—0 
La valeur prise par Test t = 1 & 2,61. 


, 


Par ailleurs, en choisissant un risque de 5 %, on a : {0,05 = 2,365. 
Comme f #] — 10.05.0051, (Ho) est rejetée au risque 5 %. La régression 
est significative au risque 5 %. 


14-7 Les hypothèses du cours sont supposées vérifiées. 


+ Calculs 


Soit À = a'C + b' l’équation de la droite de régression associée aux 
résultats de la deuxième expérience. Les calculs habituels conduisent à : 


n=3 ; CRS83x10 : s(C) © 3,1180 x 10 
4 #0,9387 ; s,(4)%0,5028 : r/*0,9999 : 
a &16126 : b'=—0,002 : 


n' 
Ve ne ;(l — r'2)s!2(A) & 9,257 x 107. 


- Test préalable : comparaison des variances résiduelles (cf. annexe 
du cours) 


On teste (Ho) : 0? = 02. 


2 
On sait qu’alors F = U suit la loi de Snedecor à (n' — 2,n — 2) 
R 
degrés de liberté. 
2 
Ona:f = + % 1,20 (les deux variances résiduelles estimées ont été 
ü 
R 


permutées de sorte que leur quotient soit supérieur à 1). 

Pour (1 ; 3) degrés de liberté, et un risque de 5 %, on lit dans la table 
5: f0,05 = 17,4. 

Comme f < f0,05, (Ho) est non rejetée. On peut accepter l’hypothèse 
d'égalité des variances résiduelles. 

La variance résiduelle commune aux deux populations est alors estimée 
par : 


3 PA F2) 
—  e % 8.1236 x 105 
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+ Comparaison des pentes des deux droites de régression 


On teste (Ho) : a = «’. 
A — À’ 


Ci 
ù Cr | a) 


suit la loi de Student à n + n’ — 4 = 4 degrés de liberté. 

La valeur prise par T est rt & 7,15. 

D’après la table 3, on a : 005 — 2,776 ; too — 4,604. 

Comme f > f0,01, la différence des pentes est significative au risque 1 %. 
Il est possible qu’une impureté ait contaminé le deuxième échantillon de 
4-nitrophénol. 


Dans ce cas, la variable aléatoire : T — 


D 


Lu 
ce 
E 
à 
ä 
L 
VU 


Corrélation 


15.1 Estimation d'un coefficient de corrélation 


15.2 Comparaison d'un coefficient de corrélation expérimental à une 
valeur théorique 


Z 
< 
es 
LE 


15.3 Comparaison de deux coefficients de corrélation expérimentaux 


15.4 Comparaison de plusieurs coefficients de corrélation expérimentaux 


> Estimer, par un nombre ou un intervalle, la force de la liaison entre deux 
caractères numériques 


> Étudier si une force de liaison observée diffère d'une valeur de référence 


OBJECTIFS 


> Savoir si une grandeur X est plus liée à Ÿ qu'à Z 


15.1 ESTIMATION D'UN COEFFICIENT DE CORRÉLATION 
Problématique 
Sur une population, on considère deux variables aléatoires X et Y telles 
que : 
> ou bien X est une variable contrôlée, Y une variable dépendante véri- 


fiant les hypothèses du chapitre 14, et la régression de Y par rapport 
à X est affine ; 


> ou bien le couple (X,Y) suit une loi normale à deux dimensions. 


Soit p le coefficient de corrélation entre X et YŸ dans la population. Le 
problème consiste à estimer p. 
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Estimation ponctuelle de p 


Notations 


On tire de la population un échantillon de n couples (x;,7;) et on lui 


: | ; Cov(x, 
associe son coefficient de corrélation : r = NC 
se(x) se(y) 


1 n 
où Cov(x,y) = — ( ne x) — X y est la covariance de l’échantillon, 
n 
i=]l 


et où s.(x) et s.(y) sont les écarts type des échantillons respectifs 


(Lis) et {Vis Yn}. 
Soit R la variable aléatoire qui prend la valeur r quand on répète les 
échantillons de taille n. 


Théorème 


pl = p?) 


RON 


Estimation ponctuelle de p 


En général, on retient 7 comme estimation ponctuelle de p. 


1— 2 
Parfois, on utilise une estimation plus précise : r (: + ee 
n— 


Estimation de » par un intervalle de confiance 


Notations 


1 
=) = arg th r (lire : argu- 
Fr 


ment tangente hyperbolique de r), et Z' la variable aléatoire qui prend la 
valeur z quand on répète les échantillons de taille n. 


1 
Soit z’ le nombre défini par z' = ri ( 


1 1 
Soit Ç le nombre défini par Ç — su (=) = arg th p. 
= à 


1 


Théorème. Avec les hypothèses déjà indiquées, pour n assez grand, 


Il 
Z' suit à peu près la loi normale W (c : =) : 


Cette approximation est convenable pour n > 20. 
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Intervalle de confiance de p 


On déduit du théorème l’intervalle de confiance de €, au risque à : 


= ]z1,22[ 


| Za z' l Za | 
VE Vn —3 
où z,, Se lit dans la table 2. 
On peut en déduire un intervalle contenant p avec une probabilité 
1-a: 
Jri,r2l=Ith z1,th z2[ 


où la fonction th (lire : argument tangente hyperbolique) est définie 


15.2 COMPARAISON D'UN COEFFICIENT DE CORRÉLATION 


is 


EXPÉRIMENTAL À UNE VALEUR THÉORIQUE 
Problématique 


Les hypothèses étant les mêmes que précédemment, on dispose d’un 
échantillon de n couples (x;,y;) dont le coefficient de corrélation est r. 
Peut-on considérer que cet échantillon est tiré d’une population où le 
coefficient de corrélation est p ? 

L'hypothèse nulle est donc : 

(Ho) : l'échantillon est extrait de la population ; la différence entre p et 
r n’est pas significative. 


Cas p = 0 


Dans ce cas, si (Ho) est vraie, T = Le suit la loi de Student à 
PE 

n — 2 degrés de liberté. 

Ce théorème permet d’établir une table, numérotée 10 dans ce livre, qui 

donne directement la borne r, telle que P(IR > ra) = à. 


> Sir €] —ra,ral, (Ho)ne peut pas être rejetée. 
> Sir €] — ra,ral, (Ho) est rejetée au risque a. 


Si (Ho) est rejetée, cela entraîne que les variables aléatoires X et Ÿ ne sont pas indé- 
pendantes. 


208 Chapitre 15 + Corrélation 


SN ah 


Figure 15-1 
Cas p # 0 


Sous (Ho) et les hypothèses déjà indiquées, Z = (Z' — ()4/n — 3 suit à 
peu près (0,1). 
On calcule donc : z = (z! — ()Vn —3. 


Par ailleurs, la table 2 fournit le nombre z,,, tel que P(|Z| > z4) = «. 
> Siz El] —Za,Zal: (Ho) ne peut pas être rejetée. 


> Siz #] — Za:Zal, (Ho) est rejetée au risque a. 


15.3 COMPARAISON DE DEUX COEFFICIENTS 
DE CORRÉLATION EXPÉRIMENTAUX 


Problématique 


On considère deux populations, vérifiant les hypothèses déjà indiquées, 
où les coefficients de corrélation (inconnus) sont p, et ps. 

On dispose de deux échantillons de tailles n, et n>, et de coefficients de 
corrélation respectifs r1 et r2. 

On teste (Ho) : p] = Ps. 


Exécution du test 


Notations 


1 1 1 1 
Soit z, = 51 (: : 2), di Fu (==) et Z' et Z° les les varia- 


bles aléatoires correspondantes. 


Théorème. Si (Ho) est vraie et si n, et n, sont assez grands (> 20), 


alors 
7 
suit W(0,1). 
1 F 1 
n — 3 n2 — 3 
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Le test de (H5) en résulte comme d’habitude quand une variable aléa- 
toire suit la loi normale centrée réduite. 


15.4 COMPARAISON DE PLUSIEURS COEFFICIENTS 
DE CORRÉLATION EXPÉRIMENTAUX 


Problématique 


On dispose de k populations (k > 2), vérifiant les hypothèses déjà indi- 
quées, où les coefficients de corrélation (inconnus) sont p,,...,p4. 

On en extrait k échantillons de tailles respectives n71,...,n, et de coeffi- 
cients de corrélation r1,...,rg. 

On désire comparer globalement les coefficients de corrélation, ce qui 
conduit à tester (Ho) : p1 = Pa = *:: = py. 


Exécution du test 


Notations 


1 1 ; 
Pour i variant de 1 à k, on détermine les nombres z; = Li ( EN ) : 


puis leur moyenne pondérée : 


k 
D GR — 3)z; 
__ i=1 
EE —— 


D Gi —3) 


i=1l 


z! 


On note Z' et Z' les variables aléatoires correspondantes. 


Théorème. Si (Æo) est vraie, et si n1,...,nx Sont assez grands 


k 
(> 20), alors Y = D (n; — 3) (Z; — 7)? suit la loi du x?à k—1 
il 


degrés de liberté. 


On calcule donc : 


k k k 
=D m3 -7) = Nm 37 27 D (ni —3) 
i=]l i=] 


i=1 
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Par ailleurs, le degré de liberté étant connu et le risque « étant choisi, la 
table 4 donne le nombre x? tel que P(Y > x?) = a. 

> Siy< x?, on ne peut pas rejeter (Ho). 


> Siy > x?, on rejette (Ho) au risque à. 


po) Fonctions th et argth 


+ La fonction tangente hyperbolique est définie de R dans | — 1; 1[ 
par : 


yA 
Re Eee = 
ete x ex+1 
Elle est impaire, dérivable et 0 . 
VxeR (thx) =1—th?x 
” 
Figure 15-2 


+ La fonction argument tangente hyperbolique est la réciproque de 
th. 
Elle est définie de ] — 1; 1[dans R, impaire, dérivable et : 


Vxel—1:1[  (argth)/(x) = 


1 — x? 
Elle a pour expression logarithmique : 


1 1 
Vxe]—1;1 argthx = 3 ( +) 


1 —x 
æ MOTS-CLÉS 


> Estimation d'un coefficient de corrélation 
> Indépendance de deux caractères quantitatifs 
> Comparaison de k (k > 2) coefficients de corrélation expérimentaux 
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EXERCICES 


15-1 Le coefficient de corrélation d’un échantillon de 100 valeurs est 
0,53. Calculez l'intervalle de confiance pour le coefficient de corrélation 
de la population correspondante, aux risques 5 %, puis 1 %, puis 0,1 %. 


15-2 Afin d’estimer le coefficient de corrélation entre deux variables 
dans une population donnée, on tire une série d’échantillons indépen- 
dants, d’effectifs croissants. On obtient les coefficients de corrélation 
expérimentaux suivants : 


Échantillon | n°1 | n°2 | n°3 | n°4 


Taille 10 20 50 100 
r 0,80 | 0,52 | 0,75 | 0,68 


À partir de chaque échantillon, estimez p par un intervalle de confiance 
au risque 5 %. Représentez graphiquement chaque intervalle en y faisant 
figurer la valeur de r. Quelles réflexions vous inspirent les résultats ? 


15-3 On cherche à estimer le coefficient de corrélation entre deux varia- 
bles dans une population humaine, au risque 5 %. Une première estima- 
tion, portant sur un échantillon de 100 personnes, fournit la valeur 0,60. 
Quel est le nombre minimal de personnes qu’il faudrait examiner pour 
pouvoir estimer la valeur de p à +10 % près ? 

On admet que, dans ces conditions, l’intervalle de confiance de p est 


centré sur 7, et on rappelle que la dérivée de argth x est =. 
15-4 D'une population caractérisée par un coefficient de corrélation de 
0,75, on extrait un échantillon de 30 individus. Le coefficient de corré- 
lation de l’échantillon est 0,82. 

L’échantillon peut-il être considéré comme représentatif de la popula- 


tion ? 


15-5 On étudie la corrélation entre les activités de deux enzymes 

sériques. On a obtenu : 

— dans l’espèce humaine, r = —0,296 pour un échantillon de 30 indi- 
vidus, 

— dans l’espèce bovine, r = 0,452 pour un échantillon de taille 21. 

Pour chacune des deux espèces, les corrélations observées sont-elles 

significativement différentes de p = 0 ? 
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15-6 Une expérience a été faite sur 20 grenouilles mâles, choisies pour 
leur extrême noirceur ou leur extrême pâleur, pour essayer de voir s’il 
existe une relation entre la teneur en mélanine de la peau de ces gre- 
nouilles et leurs poids. On désigne par X la densité de la mélanine et par 
} le poids de la grenouille exprimé en grammes. On a obtenu : 


0,45 | 0,51 | 0,05 | 0,71 
25 24 21 26 


a) 1) Calculez le coefficient de corrélation r de X et ÿ. 

2) Testez l'hypothèse (Ho) : « la valeur trouvée n’est pas significati- 
ve. Elle est due au simple hasard » ; autrement dit : il n’y a pas de diffé- 
rence significative entre la valeur r obtenue et la valeur théorique p = 0. 


On prendra a = 0,05. 
b) Déterminez l'intervalle de confiance, au seuil de sécurité 0,95, du 
coefficient de corrélation de la population-mère. 


15-7 Deux laboratoires hospitaliers indépendants étudient la corrélation 
entre le résultat d’un certain test biologique et l’âge des malades. 

Le premier laboratoire obtient r; = 0,80 pour un échantillon de 30 
malades. 

Le deuxième laboratoire obtient r> — 0,95 sur 50 malades. 

La différence entre les deux laboratoires est-elle significative ? 


15-8 Deux lots de porcs, À et B, contenant respectivement 26 et 34 
porcs, ont été extraits au hasard d’une population de porcs dont on a 
suivi l’évolution du gain de poids (variable notée Y) et la quantité de 
nourriture absorbée (variable notée X) pendant une période de 20 jours 
consécutifs. 

On a calculé le coefficient de corrélation entre X et Y dans chacun des 
deux échantillons, et on a obtenu : 


r1 = 0,85 pour l’échantillon À ; r2 = 0,63 pour l’échantillon B. 


Comparez ces deux coefficients de corrélation. 


15-9 Reprenez les données de l’exercice 15-2. Montrez que l’on peut 
admettre, au risque 5 % , que les 4 échantillons considérés sont bien tirés 
de la même population. 
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Quelle est alors la meilleure estimation du coefficient de corrélation de 
cette population ? 


15-10 Lors d’une étude écologique portant sur la répartition géogra- 
phique d’une certaine espèce d’escargots, on a mesuré le coefficient de 
corrélation entre la hauteur et la largeur des coquilles, pour des échan- 
tillons d’origines géographiques différentes. Les résultats obtenus sont 
les suivants : 


200 
0,98 


200 
0,97 


taille de l'échantillon 125 125 30 


r 0,96 0,89 0,98 


Peut-on dire que les cinq échantillons sont tirés de la même popula- 
tion ? 


SOLUTIONS 
1 1 +0,53 
15-1 On a: z = argth 0,53 = -In | ————— 
N ee. (Ts 
En supposant que la population vérifie les hypothèses du cours, et après 


avoir lu z, dans la table 2, on obtient successivement : 
— l'intervalle de confiance de Ç = argth p : 


Za Za 
z 74 =], 2 
| V97 V97 | 
— puis l'intervalle de confiance de p au risque a : 
Ii,nl= Jthz,th21. 
On peut regrouper les résultats dans un tableau : 


) & 0,59. 


œ Uo. ]z , ZI ln, PI 
0,05 1,960 10,39 ;0,79[ | 1]0,37;0,66[ 
0,01 2,576 10,33 ;0,85[ | 1]0,32;0,69[ 
0,001 3,291 10,25 ;0,93| | 10,25 ;0,73[ 


15-2 Comme dans l’exercice précédent, on calcule successivement : 


1 1 
z = argth r — 5 (=) puis l’intervalle de confiance de « : 


ie al= |: = 
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Échantillon| n r z 14,2 A He 

n°1 10 | 0,80 | 1,10 10,36 ; 1,84[ 10,34 ; 0,951 

n°2 20 |0,52 | 0,58 10,10 ; 1,051 10,10 ; 0,78 

n°3 50 |0,75 | 0,97 10,69 ; 1,26[ 10,60 ; 0,851 

n°4 100 | 0,68 | 0,83 10,63 ; 1,03 10,56 ; 0,771 
puis l'intervalle de confiance 0 05 1r 
dep:Jri,r2l=lthz;,thzl Fa 
La représentation graphique Da 
suggère les remarques : ee 
— lorsque la taille de l’échan- n°3 
tillon augmente, pour un e n° 4 
niveau de risque fixé, l’inter- 

Figure 15-3 


valle de confiance se rétrécit, 
c’est-à-dire que l’estimation 
devient plus précise ; 


— les intervalles de confiance de p ne sont pas centrés sur l'estimation 


ponctuelle r. 


Toutefois, lorsque la taille de l’échantillon augmente, l’intervalle de 
confiance a tendance à devenir symétrique par rapport à r. 


15-3 Si l’on estime p par la valeur 0,60, l’intervalle de confiance doit 


avoir une demi-amplitude Ar = 0,06 


(estimation à + 10 % près). 


On en déduit la demi-largeur de l’intervalle de confiance de € : 


d AN à 
Az = A(argth r) & —(argth x) : Ar = 

dx 1—7r2 
soit : 

0,06 

AZ TT = TT 0,094. 
On sait que : 
Ua 1,96 
Az=——— soit Az——— pour a = 0,05. 
Vn — 3 Vn —3 B 
D 526 0,094 on ti 440 
e — = 0, on tire n © À 
Vn —3 


Il faut donc examiner environ 440 personnes. 


15-4 On teste (Ho) : l’échantillon est 


extrait de la population ; la diffé- 


rence entre p = 0,75 et r — 0,82 n’est pas significative. 
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En supposant que la population vérifie les hypothèses du cours, si (Ho) 
est vraie, on sait que Z = (Z — C)Y/n —3 suit W(0; 1). 

On a: 

z = argthr = argth0,82 & 1,16 ; Ç( = argth p = argth 0,75 & 0,97. 
D'où : u = (z — Q)Vn — 3 & 0,96. Par ailleurs, on a #0,05 = 1,96. 
Comme u €] — u0,05,40.,051, on ne peut pas rejeter (Æ6) au risque 5 % . 
L’échantillon peut être considéré comme représentatif de la population. 


15-5 Pour chacune des deux espèces, on teste (Ho) : la différence entre 
la valeur observée r et la valeur théorique p = 0 n’est pas significative. 


RVn—2 
Dans ce cas, on sait que T = VTT suit la loi de Student à n — 2 
VI — R? 
degrés de liberté. 
—0,2964/28 


> Pour l’espèce humaine, on a : { = © .64. 

V1 — (—0,296)2 
Pour & = 0,05 et 28 d.d.I. on a : fx = 2,048. Comme fr €] — #,,1,[,on 
ne peut pas rejeter (H5). On dit parfois que la corrélation n’est pas signi- 
ficative. 


0,452/19 
V1 — 0,452? 
Pour a = 0,05 et 19 d.d.l. on a : f, = 2,093.Comme ft é] — 14,t4[, on 
rejette (Ho) au risque 5 %. Cela entraîne donc que les activités des deux 


enzymes sériques étudiés ne sont pas indépendantes dans le cas de 
l’espèce bovine. 


> Pour l’espèce bovine, on a : { — 22410 


Ilest plus rapide d'utiliser la table 10, construite à partir du théorème qui vient 

d'être rappelé. 

°__ Pour l'espèce humaine, on a r = -0,29% et on lit, pour n - 2 = 28 la borne 
loos © 0,4. Comme |r| < 1605, On ne rejette pas (Hÿ). 


*_ Pour l'espèce bovine, on a r = 0,452 et on lit, pour n - 2 = 19 la borne 
loos = 04329. Comme |r| > r605, On rejette (H) au risque 5 %. 


15-6 a) 1) On obtient directement avec une calculatrice r Æ 0,55. 

2) Pour «a = 0,05 et n — 2 = 18, on lit, dans la table 10, la 
borne r0.05 = 0,4438. 
Comme |r| > ro.05, on rejette (Ho) au risque 5 %. On peut dire que la 
corrélation observée est significative. 
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b) On a : z = argthr Æ 0,62. En supposant que la population vérifie les 
hypothèses du cours, on obtient successivement : 


> l'intervalle de confiance de € = argth p : 
M 
, ! 
V17 V17 
> l’intervalle de confiance de p : 


Ji, rl=]Ith2z,th 221 & 10,15 ; 0,80[. 


Jzi ai | = us: 1,10[ (car za = 1,96) 


On peut donc dire, au risque 5 %, que p, coefficient de corrélation de la 
population, appartient à ]0,15 ; 0,80[. On retrouve la question précé- 
dente en remarquant que cet intervalle ne contient pas 0. 


15-7 On teste (Ho) : p, = p2 ; la différence entre les deux laboratoires 
n’est pas significative. 
On suppose que les populations vérifient les hypothèses du cours et on 
observe que n, et n2 sont assez grands. 

Zi 2 


1 n 1 
Mi — 3 9 = 3 
On obtient successivement : 


1 1,8 
Z1 = argth r; = 5m (5) & 1,10 ; z2 = argth 0,95 & 1,83 ; 


suit W (0,1). 


Dans ce cas, on sait que Z = 


u © —3,04. 

Pour a = 0,05, on a z0,05 = 1,96. 

Pour «a = 0,01, on a z0,01 = 2,576. 

Dans tous les cas, z € | — Za,zal et (Ho) est rejetée au risque 1 % 


La différence entre les deux laboratoires est donc significative au risque 
1 %. 


15-8 On teste (Ho) : p, = Pà ; la différence entre r. et r2 est explicable 
par les fluctuations d’échantillonnage. On a : 
ni = 26; n2 = 34 ; z, = argth ri À 1,26 ; 22 = argth r & 0,74. 


— ERP 1,87 
1 5 1 
23 31 


Pour & = 0,05, on sait que z0.05 = 1,96. 
Comme z €] — Z4,Zal, (Ho) n’est pas rejetée. La différence entre r. et 
r2 n’est donc pas significative au risque 5 % 
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15-9 On teste (Ho) : p;, = P2 = P3 = Pa ; les 4 échantillons sont 
extraits de la même population. 
On suppose que les populations vérifient les hypothèses du cours, et l’on 
va accepter d’utiliser le théorème énoncé bien que n, = 10 soit faible. 
Nous avons déjà calculé les valeurs des z;. Nous pouvons donc calculer 
a 

TX 1,10+17 x 0,58 +47 x 0,97 +97 x 0,83 


7 = & 0,86. 
: 168 


k 
On sait que Y — DC — 3)(Z; — Z)° suit la loi de X2àk—1=3 
i=1 
degrés de liberté. 
Cette variable aléatoire prend la valeur : 


y = (21 — 27)? + 17(22 — 2)? + 47 (23 — 2)? + 9724 — 7) & 2,45. 


Pour & = 0,05 et 3 d.d.I., la borne est id = 7,81. 


Comme 2,45 < 7,81, on ne peut pas rejeter (Ho) au risque 5 %. 

Les 4 échantillons peuvent être considérés comme issus de la même 
population. 

La meilleure estimation du coefficient de corrélation de cette population 
s’obtient alors à partir de 7, soit : r = th z & 0,69. 


15-10 (Ho) : p, = --: = ps, les échantillons sont extraits de la même 
population. On calcule successivement : 

z1 = argth ri À 1,95 ; 22 = argth 2 & 1,42 ; z3 = z4 & 2,30 ; 

zs & 2,09 


Mn 1052 1222 +272 -Ll0Ta L0Tze 
UIS : = 
ne 665 


& 2,01. 


k 
La valeur prise par Y — D _G OZ; Z) Est 
i=1 


y = 122(z; — 7)? + 122(22 — 7)? + 27(z3 — 7)? + 197(z4 — 7)? 
+197(z5 — 7)? 


S:02;55. 
Pour z = 4, on lit : KA os — 9,49; do — 15,28; ai = 18,47. 
Dans tous les cas, on a y > et (Ho) est rejetée. 


La différence entre les cinq échantillons est donc significative, même au 
risque minime de 0,1 %. 
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16.1 Introduction 

16.2 Test de Mann et Whitney 
16.3 Test de Wilcoxon 

16.4 Test de Kruskal et Wallis 


16.5 Coefficient de corrélation de rang de Spearman 


> Savoir comparer deux, ou plus, moyennes d'échantillons dans le cas où 
ils sont de petites tailles et extraits de populations inconnues 


> Conclure sur l'indépendance de deux caractères quantitatifs dans le cas 
où les populations sont nouvelles et les observations en petit nombre 


16.1 INTRODUCTION 


Les tests classiques de comparaison de moyennes et de variances, ainsi 
que l’analyse de la variance, ne s’appliquent en toute rigueur qu’à des 
échantillons issus de populations normales. En général, le non-respect de 
cette condition n’a pas trop d'influence sur la validité du test (sauf en ce 
qui concerne la comparaison des variances). Lorsque l’effectif des 
échantillons est faible, l’erreur commise peut toutefois être importante. 
On préfère alors utiliser un autre type de tests, valables quelle que soit la 
nature des populations dont sont tirés les échantillons. Ces tests sont dits 
non-paramétriques car ils ne nécessitent pas l’estimation des paramè- 
tres (moyenne et écart type) des populations. 

Nous étudierons dans ce chapitre quatre tests non-paramétriques : 


> Le test de Mann et Whitney, qui permet de comparer les moyennes 
de deux échantillons indépendants (c’est l’analogue non-paramé- 
trique du test de Student). 
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> Le test de Wilcoxon, qui permet de comparer les moyennes de deux 
échantillons appariés. 


> Le test de Kruskal et Wallis, qui permet de comparer les moyennes 
de plusieurs échantillons (c’est l’analogue non-paramétrique de 
l’analyse de la variance à un facteur). 


> Un test non-paramétrique de corrélation : le test de Spearman. 
Ces quatre tests ont en commun le fait que les valeurs observées sont 


remplacées par leurs rangs au sein des échantillons : ce sont donc des 
tests de rangs. 


16.2 TEST DE MANN ET WHITNEY 


Problématique 


On dispose de deux échantillons, indépendants et non-exhaustifs, E; et 
E, de tailles respectives n, et n2. On veut comparer les deux moyennes 
expérimentales, c’est-à-dire tester l'hypothèse nulle (Ho) : 44 = Ju. 


Mise en place du test 


> On classe par ordre croissant l’ensemble des valeurs des deux échan- 
tillons en repérant l’origine de chaque valeur. 


> On affecte à chaque valeur de E; U E», son rang dans ce classement. 
S'il y a des ex-aequo, on attribue à chacun un rang égal à la moyen- 
ne des rangs qu’ils occupent (par exemple, s’il y a deux quatrièmes 
ex-aequo, on attribue à chacun d’eux le rang 4,5). 

> Pour tout élément x; de E1, on compte le nombre d’éléments de E2 
situés après x;, (en comptant pour 0,5 tout élément de ÆE2 ex-aequo 
avec x;). 

> On note m, la somme de toutes les valeurs ainsi associées à tous les 
éléments de E:. 


> On définit de même m2 en permutant les rôles de E; et de E. 


> Puis on pose m = min (m1,Mm2), c’est-à-dire que m est la plus petite 
des deux valeurs m1 et m2 obtenues. 


is On vérifie que m1 + m2 = M, Ce qui permet un contrôle des résultats. 
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On peut aussi obtenir m1 et m2 de la façon suivante : soit r, et r2 la 
somme des rangs des valeurs de chacun des deux échantillons. En cas 
d’ex-aequo les rangs sont déterminés comme indiqué ci-dessus. On a : 


ni(ni + 1) n(n2 + 1) 
= et M =nIn) M 


mi — nin2 r2 

Décision 

Soit M la variable aléatoire qui prend la valeur m à l’issue de l’expé- 

rience aléatoire. 

> Les tables 7 et 8 donnent, en fonction de n11, n2 et a la valeur m,, 
telle que, sous (Ho), P(M < m4) = à, dans les cas à = 0,05 et 
a = 0,01. On rejette donc l’hypothèse nulle si m < ma. 


> Sin, et n2 sont hors des tables, alors, si (Ho) est vraie, M suit 
approximativement la loi normale N(u,0) avec : 


LL g= mette +0 | 
Ts . 12 
; RE m—u 
On calcule donc la valeur de la variable normale réduite : z = et 
oO 


on conclut, comme d’habitude, avec la table 2, c’est-à-dire qu’on rejette 
(Ho) si |z| > za. 


16.3 TEST DE WILCOXON 
Problématique 


On dispose de deux échantillons appariés, c’est-à-dire que chaque valeur 
d’un échantillon est associée à une valeur de l’autre échantillon. Ils sont 
par conséquent de même taille. L'hypothèse nulle (Ho) est l’égalité des 
moyennes des deux populations soit 4, = J4. 


Mise en place du test 


> On calcule les différences entre les valeurs appariées. On supprime 
les différences nulles et on note N le nombre de différences non nul- 
les. 


# Ici, on supprime les différences nulles, ce qu'il ne faut pas faire dans le test analogue 
du chapitre 12. 
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> On classe ces différences par ordre croissant des valeurs absolues. 
On ne tient pas compte du signe dans le classement ; mais le signe n'est pas perdu, 
é il va servir après. 

> On affecte à chaque différence son rang dans ce classement. S’il y a 
des ex-aequo, on attribue à chacun un rang égal à la moyenne des 
rangs qu’ils occupent. 

> On calcule : w, somme des rangs des différences positives et w_ 
somme des rangs des différences négatives. 


N(N +1 
Pis On vérifie que w, + w_ = 5 bee qui permet un contrôle des résultats. 


On note : w = min (w},,w_) la plus petite des deux valeurs w, et w_. 
Décision 
Soit W variable aléatoire qui prend la valeur w à l’issue de l’expérience 


aléatoire. 


> Si N < 25, la table 9 donne, en fonction de N, la valeur w,,, telle 
que, sous (Ho), P(W <w,) = a dans les cas a —0,05 et 
a = 0,01. On rejette l'hypothèse nulle si w < w. 

> Si N > 25, lorsque (Ho) est vraie, Wsuit approximativement la loi 
normale W(u,0) avec : 


DONNE ne = ANT DeN+ D) 
DE nr 24 
— Hi 


à Ass w 
On calcule donc la valeur de la variable normale réduite : z = et 


© 
on conclut, comme d’habitude, avec la table 2, c’est-à-dire qu’on rejette 
(Ho) si [Z| > Za- 


16.4 TEST DE KRUSKAL ET WALLIS 


Problématique 


On dispose de k échantillons, indépendants et non exhaustifs, 
Ei1,...,E%x, de tailles respectives n1,...,n4. On veut comparer globale- 
ment les £ moyennes expérimentales, c’est-à-dire tester l’hypothèse 
nulle (Ho) : y =: = y. 


16.5 + Coefficient de corrélation de rang de Spearman 223 


Mise en place du test 


On classe par ordre croissant l’ensemble des valeurs de ces k échan- 
tillons. Puis on détermine le rang de chaque valeur, de la même manière 
que dans les tests précédents s’il y a des ex-aequo. 

Pour chaque échantillon E;, on note r; la somme des rangs des valeurs 
de cet échantillon. 


12 er. 
On calcule alors la quantité : h = D 63 L.) 3(n +1) où 


k 
n — Y ni désigne l’effectif total. 


i=1 
Décision 
Soit H la variable aléatoire qui prend la valeur h à l’issue de l’expérien- 
ce aléatoire. 
> Si les n; sont assez grands (borne classique : n; > 5 pour tout à), 
alors, si (Ho) est vraie, H suit à peu près la loi du x? à k — 1 degrés 
de liberté. 
Dans la table 4 on lit la valeur x? telle que P(H > x?) = a eton 
rejette (Ho) si h > ve. 
> Si les ñn; ne sont pas assez grands, on dispose de tables qui donnent 
la valeur h,,, telle que P(H > h,) = a. 
On rejette donc (Ho) si on obtient h > h,. 


La table 12 donne h,, pour « = 0,05 et a = 0,01, dans le cas de 
trois échantillons de tailles inférieures ou égales à 5. 


16.5 COEFFICIENT DE CORRÉLATION DE RANG DE SPEARMAN 
Problématique 


Sur une population, on considère deux variables aléatoires X et Y, et on 
veut tester (Ho) : absence de corrélation entre X et Y. 

Pour ceci, on dispose généralement de n couples (x;,y;) de valeurs de X 
et de Y déterminées simultanément. Si on ne sait rien sur les lois de X et 
de YŸ, on ne peut pas utiliser les résultats du chapitre 15. 

Dans ce cas, on range par ordre croissant, séparément, les valeurs 
Xi: 3% et Y1:° se > Ÿne 
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On remplace alors chaque valeur x; par son rang x’, et chaque valeur y; 
par son rang y:. En cas d’ex-aequo, on procède comme dans les tests 
précédents. 

Lorsque les observations consistent en un simple classement des indivi- 
dus en fonction des deux critères X et Y, on a dès le départ les couples 


GT. 


Coefficient de corrélation de rang de Spearman 


C’est le nombre rs égal au coefficient de corrélation calculé à partir des 
couples de rangs (x’,y;). La méthode la plus rapide pour le calcul est 
d'utiliser une calculatrice avec ces couples de rangs. 


Hypothèse nulle 


Si p, désigne le coefficient de corrélation de rang de Spearman au niveau 
des populations, l'hypothèse nulle (H65) que l’on va tester s’écrit : 
Décision 

° Dans le cas n < 13 


Pour n € {4,...,13} et les risques à = 0,10, a = 0,05, a = 0,02 et 
a = 0,01, la table 11 donne la borne r, telle que P(IRs| > ra) à. 


>» Sifrs| > ra, on rejette (Ho) avec un risque a de se tromper. 
»> Sifrs| <r, on ne rejette pas (Ho). 


+ Dans le cas n > 13 
RsVn — 2 


V1—R£ 
Student à n — 2 degrés de liberté. 


On peut en déduire une règle de décision. mais il est plus rapide d’utili- 
ser la table 10 qui fournit directement une borne r,, déduite de la loi de 
Student qui précède. 


Dans ce cas, si (Ho)est vraie, T = suit à peu près la loi de 


»> Sifrs| > r on rejette (Ho) avec un risque a de se tromper. 


> Sifrs| < ra, on ne rejette pas (Ho). 
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/ Autre formule pour le coefficient de corrélation 


de rang de Spearman dans le cas où il n’y a pas d’ex-aequo 


Dans ce cas, si d; = x! — y! désignent les différences des rangs, on a 


6) à 
i=]l 
n(n? —1) 


n(n +1) 
= =1 


la somme des n premiers nombres entiers. 


aussi : rs = 1 — - Démontrons : 


y; puisqu'on se ramène à 


n n 
> On a toujours ) = 
= = 


l 


n n 
,. » » 12 12 
>» S'il n'y a pas d’ex-aequo, alors ) — ) y,” est la somme 
i=1 i=1 
des carrés des n premiers nombres entiers, soit : 


Sn rene 
k=1 6 


> D'autre part, on a: 


n n n n n 
2 ! IN2 12 EN À 12 

+ > He =) À; —25 x + Yi 

i=1 i=1 i=1 i=1 i=1 


£ 1 1) 1 L 
sa: De 3] : Le 3] 


> rs peut donc s’écrire : 


Cov(X’,7") = 
FT: = = 
on Troovo 0 ED Cr ED Le 
6 2 
D GE DO ED AU UE 
met ” : 
a il 
RP 
1 . 2 1 2 . 2 
= (1 
: Dr ) ee 
: a n(n2—1) 
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æ MOTS-CLÉS 


> Test de Mann et Whitney 
> Test de Wilcoxon 

> Test de Kruskal et Wallis 
> Test de Spearman 


EXERCICES 


16-1 Deux groupes À et B de 10 étudiants, formés à des méthodes péda- 
gogiques différentes, ont subi le même examen. À l'issue de cet examen, 
le classement des étudiants était le suivant : 


A1 314135 78 |8ex 12 ES 1117 


B 2 6 10,11 13114115 ex 18| 19/20 


On désire savoir si les deux méthodes pédagogiques conduisent à des 
résultats statistiquement différents. 

a) Montrez qu’il faut utiliser un test non-paramétrique. 

b) Appliquez le test de Mann et Whitney pour résoudre le problème 
posé. 


16-2 Comparez les moyennes des échantillons : 
E1:30 : 98:20 52:36: 59:85:94 
H:09 201285 4113 :"76:5 32 586 72, 52142 906 :138 


On ne sait rien de la loi suivie par la variable aléatoire étudiée au niveau 
des populations. 


16-3 Dans le cadre d’une expertise clinique de validation d’un médica- 
ment M, on administre à 10 malades, successivement à chacun et dans 
un ordre tiré au sort, le médicament M et une même dose d’un médica- 
ment de référence À. 

Les effets de ces deux substances sur chacun des 10 malades sont : 


MI5/4,2,3 413,8) 54135 
R|6131311111314/2|151]7 


Peut-on dire que les médicaments M et R ont des effets significativement 
différents au risque 5 % ? 
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16-4 Un chimiste a mis au point une méthode de dosage du principe 
actif contenu dans des comprimés pharmaceutiques. Il décide de la com- 
parer à une méthode de référence. Pour cela, il dose 12 comprimés par 
les deux méthodes, avec les résultats suivants : 


Comprimé n° Quantité de principe actif (en mg) 
Méthode de référence | Méthode testée 
1 9,2 9,5 
2 10,0 9,0 
3 9,0 8,8 
4 94 9,5 
5 10,1 9,1 
6 9,5 10,0 
7 10,0 10,1 
8 10,3 9,3 
9 10,2 9,0 
10 10,2 9,7 
11 9,8 9,1 
12 10,1 9,3 


Y a-t-il une différence significative entre les résultats des deux métho- 
des ? 


16-5 On a dosé la teneur en calcium de trois types d’eaux issues d’ori- 
gines géographiques différentes. Chaque type d’eau a fait l’objet de qua- 
tre prélèvements. Les résultats des dosages (en mg de calcium par litre 
d’eau) sont : 


Eau 1 : 18 : 20 : 22 : 25 

Eau2=15 216: 417.521 

Eau3:15 52052125 

L'origine géographique a-t-elle une influence significative sur la teneur 
en calcium des eaux considérées ? 


16-6 On a étudié l’activité d’une enzyme, l’acétylcholinestérase, chez 
des animaux soumis à l’action d’un insecticide organophosphoré. 
L'activité enzymatique est exprimée en micromoles de substrat hydroly- 
sé par minute et par mg de protéines. Les résultats obtenus en fonction 
du temps d’exposition au pesticide sont donnés ci-après (les échantillons 
sont indépendants). 

L’insecticide entraîne-t-il une diminution significative de l’activité de 
lenzyme ? (on comparera globalement les quatre échantillons) 
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Animaux témoins Animaux traités 
1 jour 2jours | 3 jours 
15,0 15,0 2,0 0,5 
8,5 9,0 2,2 3,0 
10,0 8,0 4,0 2,3 
10,0 2,0 2,4 0,6 
7,6 5,0 11 0,9 
5,0 3,0 0,7 0,5 


16-7 On a étudié l’inhibition de la cholinestérase par une série de com- 

posés organophosphorés. Pour chaque composé on a déterminé : 

— le pouvoir inhibiteur, exprimé par la constante de formation X du 
complexe enzyme-composé ; 

— la lipophilie, exprimée par le coefficient de partage P du composé 
entre l’eau et l’octanol. 

Les valeurs obtenues pour 9 composés sont les suivantes : 


log K | 2,27 2,441 246 | 2,56 | 3,08 | 3,23 | 3,27 | 3,32 | 3,71 
log P | 0,089) -0,67 | 0,021 | 0,66 | 0,82 | 1,88 | 2,53 | 2,39 | 1,67 


Y a-t-il une corrélation significative entre l’action inhibitrice et la lipo- 
philie? 


16-8 On considère les classements, en mathématiques et en français, 
d’un groupe de 12 élèves : 


Français. 3 9 | 11 2 |12 4 110 | 5 8 1 6 7 


Y a-t-il une corrélation significative entre les résultats obtenus dans les 
deux matières ? 


SOLUTIONS 


16-1 a) Comme on ne connaît que le rang des étudiants, on doit utiliser 
un test non-paramétrique. Si l’on avait connu leurs notes, on aurait pu 
hésiter entre un test paramétrique (test de Student) et un test non-para- 
métrique, bien que le faible effectif des échantillons soit plutôt en faveur 
de ce dernier. 
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b) Comme l’hypothèse nulle (Ho) est l’égalité des moyennes des deux 
classements, on utilise le test de Mann et Whitney. On a : 


mi =10+9+9+9+8+8+8+6+3,5+3 = 73,5 
m =9+6+3+3+2+2+1,5 = 26,5 


m = min(m;,M2) = 26,5 


&s On vérifie que m; + m = mn Car mn = 10 et rm = 10. 


V2 
D’après les tables 7 et 8, la valeur m, telle que P(M < m4) = à est: 
m0,05 = 23 pour à = 0,05 et mo,o1 = 16 pour a = 0,01. 

Dans ces deux cas, on a m > mA. On ne peut donc pas rejeter (Ho). 
La différence des deux échantillons n’est pas significative au risque 5 %. 


16-2 On teste l’hypothèse nulle (H5) : 4 = Ju, Soit : les deux échan- 
tillons sont extraits de populations ayant la même moyenne. 

On va utiliser le test de Mann et Whitney car les échantillons sont de 
petites tailles, et il n’y a aucune raison de supposer les populations gaus- 
siennes. 

Classons l’ensemble des valeurs de E1 U E: par ordre croissant, en repé- 
rant en gras les valeurs de E. 

2,015 30 532 %3:6": 3,8. ;: 325,39 :07,2.:07,6 : 8,5 :1.8,6:; 
9,3 ; 9,4 ; 9,6 ; 9,8 ; 11,3 ; 12,5 ; 14,2 


On a : 
mi =10+10+9+8+8+6+4+3 — 58 
mi =6+5+3+3+2+2+1—22 


m = min(mi,m2) = 22 
S On vérifie que m1 + m2 = nn Car m = 8 et m = 10. 


D’après les tables 7 et 8, la valeur m, telle que P(M < m4) = a est: 
mo.os = 17 pour & = 0,05 etmo.o = 11 pour & = 0,01. Dans ces deux 
cas,ona m > mA. On ne peut donc pas rejeter (H5). La différence des 
moyennes n’est pas significative au risque 5 %. 


16-3 On teste l’hypothèse nulle (Æo) : il n’y a pas de différence signifi- 
cative entre les effets moyens des deux médicaments. 

Les deux échantillons sont appariés puisqu'il s’agit des mêmes malades. 
Comme les échantillons sont de petite taille et qu’il n’y a aucune raison 
de supposer les populations gaussiennes, on ne peut pas utiliser un test 
paramétrique. On utilise le test de Wilcoxon. 

Calculons les différences entre les résultats des deux traitements, dans 
l’ordre M — R par exemple. On obtient : 
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LE 125 SE 0 AE 12 


Rangeons ces différences par ordre croissant de valeurs absolues, en éli- 
minant la valeur nulle : 


Valeurs —1 1 -1 —1 2 —2 3 3 4 


Rangs provisoires | 1 2 3 4 5 6 7 8 9 


Rangs moyens 2,5| 2,5 | 25] 25] 5,5 | 5,5] 7,5 | 7,5 | 9 


On en déduit : 

w4 = 2,5 +5,5 +7,5 +7,5 +9 = 32 

w_ —=2,5+2,5 +2,5+5,5 — 13 

On obtient donc : w = min(w},w_) = 13. 


De NN +1) 
SA On vérifie que w, + w_ = a 45 car N = 9. 


D'après la table 9, les valeurs w,, telles que P(W < w,) = a sont 
: Wo.os = 6 pour à = 0,05 et wo.o1 = 2 pour = 0,01. 
On a : w > wo,05. On ne peut donc pas rejeter (Ho) au risque 5 %. 
Il n’y a pas de différence significative entre l’action du médicament testé 
et celle du médicament de référence. 


16-4 On teste l’hypothèse nulle (Ho) : il n’y a pas de différence signi- 
ficative entre les moyennes des résultats des deux dosages. Les deux 
échantillons sont appariés puisqu'il s’agit des mêmes comprimés. On va 
utiliser le test de Wilcoxon car les échantillons sont de petite taille et il 
n’y a aucune raison de supposer les populations gaussiennes. 

Les différences entre les résultats des deux méthodes sont : 


1-03; 14 0,2% =0;1% 1% -0,5; 0,1: 1512; 05; 0/7: 0,8} 


Ces différences sont toutes non nulles. Rangeons-les par ordre croissant 
des valeurs absolues, et déterminons leurs rangs. 


Différences 


Rangs provisoires 


Rangs moyens 


Différences 


Rangs provisoires 


Rangs moyens 
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On en déduit : 

w4 =3+5,5+7+8+ 10 + 10 + 10 + 12 = 65,5 
w_ =1,5+1,5+4+5,5 = 12,5 

w = min(w+,w_) = 12,5 


ee N(N +1) 
D On vérifie que w, + w_ = 5 = 78 car N = 12. 


D'après la table 9, les valeurs w,, telles que P(W < w,) = à sont : 
Wo.05s = 14 pour a = 0,05 et wo oi = 7 pour à = 0,01. 

Comme w < wo,05, (Ho) est rejetée au risque 5 %. 

Mais comme w > wo,o1, (Ho) n’est pas rejetée au risque 1 %. 

Il y a donc entre les deux méthodes une différence significative au risque 
5 % (mais pas au risque 1 %). 


16-5 On va tester l'hypothèse nulle (Ho) : 44 = li = 3, c’est-à-dire : 
il n’y a pas de différence significative entre les teneurs moyennes en cal- 
cium des trois types d’eau. 

Comme il n’y a aucune raison de supposer les populations gaussiennes 
et de même variance et comme les échantillons sont de petites tailles, on 
ne peut pas utiliser l’analyse de la variance. On va utiliser le test de 
Kruskal et Wallis. 

Rangeons par ordre croissant l’ensemble des valeurs des trois échan- 
tillons, puis déterminons leurs rangs : 


Valeurs Rangs Rangs moyens 
eau 1 eau 2 eau 3 eau 1 eau 2 eau 3 
15 1 1,5 
15 2 1,5 
16 3 3 
17 4 4 
18 5 5 
20 6 6,5 
20 7 6,5 
21 8 8,5 
21 9 8,5 
22 10 10 
25 11 11,5 
25 12 11,5 
Totaux 33 17 28 
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On en déduit : 
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mn F2, 
| nfn+1) rt * 
LE A à 


Pour 3 groupes de 4 valeurs, la table 12 donne la valeur h, telle que 
P(H>h;) = a, soit : ho0s = 5,70 pour à = 0,05 et ho o1 = 7,60 


pour a = 0,01. 


On a: h < ho,05. On ne peut donc pas rejeter (H5) au risque 5 % ; la dif- 
férence des teneurs en calcium des trois eaux considérées n’est pas signi- 
ficative au risque 5 %. 


16-6 
Valeurs Rangs Rangs moyens 
témoins| 1jour | 2jours | 3 jours témoins, 1jour |2jours | 3 jours 
0,5 1 1,5 
0,5 2 1,5 
0,6 3 3 
0,7 4 4 
0,9 5 5 
1,1 6 6 
2,0 7 7,5 
2,0 8 7,5 
2,2 9 9 
23 10 10 
24 11 11 
3,0 12 12,5 
3,0 13 12,5 
4,0 14 14 
5,0 15; 15,5 
5,0 16 15,5 
7,6 17 17 
8,0 18 18 
8,5 19 19 
9,0 20 20 
10,0 21 21,5 
10,0 22 21,5 
15,0 23 23,5 
15,0 24 23,5 
Totaux 118 97 51,5 33,5 
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Hypothèse nulle : pas de différence significative entre les activités 
moyennes des quatre échantillons. En l’absence d’informations concer- 
nant la distribution statistique des valeurs de l’activité enzymatique, uti- 
lisons le test de Kruskal-Wallis. En appliquant la même méthode que 
pour l’exercice précédent, on obtient le tableau de la page précédente. 
On en déduit : 

12 18-077 515 53% ” 

= ( ) 3 x 25 & 15,36. 


6 6 6 6 

D'autre part, comme ñn1 > 5,n2 > 5,n3 > S,n4 > 5, on sait que la 
variable aléatoire Æ suit à peu près la loi du x? à k — 1 = 3 degrés de 
liberté. 

D’après la table 4, la valeur h, telle que P(H > h,;) = a est donc : 
ho.05 —= 7,81 pour à — 0,05 : 

ho.o1 = 11,34 pour a = 0,01; 

hooo = 16,27 pour à = 0,001. 

Comme h > ho.o1, on rejette (Ho) au risque 1 %, et donc aussi au risque 
5 %. 

La différence des activités enzymatiques moyennes des quatre échan- 
tillons est donc significative au risque 1 % (mais pas au risque 0,1 %). 


16-7 On teste (Ho) : absence de corrélation entre log K et log P. En 
l'absence d’informations concernant la distribution statistique des 
valeurs, utilisons le test non-paramétrique de Spearman. 

Déterminons les rangs des valeurs après les avoir rangées par ordre 
croissant : 


Rang (log K)| 1 2 3 4 5 6 7 8 9 


Rang (log P)| 3 1 2 4 5 7 9 8 6 | 


Si votre calculatrice fournit directement le coefficient de corrélation, à 
partir de ces couples de rangs vous obtenez rs Æ 0,83. 

Sinon, comme il n’y a pas d’ex-aequo, vous obtenez r$ par l’expres- 
SiOn : 


rs = l— 


: nl 2+2+1+0+0 DS ne +] 
9(81 — 1) 
D’après la table 11, la valeur r, telle que P(IRs| > r4) = à est: 
r0.05 = 0,68 pour à = 0,05 ; roo1 = 0,82 pour a = 0,01. 
Comme rs #] — r,,rAl, on rejette donc (H5) au risque 5 %, et même au 
risque 1 %. La corrélation est donc significative au risque 1 %. 
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16-8 On teste (Ho) : absence de corrélation entre les résultats des deux 
matières. 

Puisqu’on ne dispose que des rangs des élèves, nous sommes conduits à 
utiliser le test de Spearman. 

Avec une calculatrice, vous obtenez directement à partir des couples de 
rangs : rs © 0,61. 

Pour n = 12, la table 11 donne r0,05 = 0,59. 

Comme rs €] — r005,r0.05l, (Ho) est rejetée au risque 5 %. 

La corrélation entre les classements est donc significative au risque 5 %. 


Si Z suit la loi normale réduite, 
pour x >0, la table donne la 
valeur D(x) = P(Z < x). 

La valeur x s’obtient par addition 


des nombres inscrits en marge. a 


KE 


Pour x <0,ona: 10 


GX) = 1 — px). 
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Tables 


TABLE 2 


Loi normale réduite (table de l'écart réduit) 


Si Z est une variable aléatoire 
qui suit la loi normale réduite, la 
table donne pour « choisi, la 
valeur z, telle que : 


P(IZI 2 za) = a 


La valeur à s’obtient par addi- 
tion des nombres inscrits en 


marge. 
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qui suit la loi de Student à 
degrés de liberté, la table donne à 
pour « choisi, le nombre f,, tel ES 
que P(ITI > 4 = à). 


Si T est une variable aléatoire | 
| 


63,657 | 636,619 


DO 00 JO Un BR © D 


Ce) 0,126 | 0,674 | 1,036 | 1,282 | 1,645 | 1,960 | 2,326 | 2,576 3,291 


Lorsque le degré de liberté est infini, il s’agit du nombre z,, correspon- 
dant à la loi normale centrée réduite (cf. table 2). 


Tables” 


Si Ÿ est une variable aléatoire 
qui suit la loi du y? à v degrés 
de liberté, la table donne pour « 
choisi, le nombre y? tel que 
PO =) = 0: = 


_£ 


_ 
© © 00 - LU B © D 


11 
12 
13 
14 
15 
16 
17 
18 
19 
20 


© ND D 
S D 


© © D D 
ISSU ERB 


D ND 
© © 


Lorsque le degré de liberté z est tel que v > 30, la variable aléatoire : 
Z=VY-V2v-1 


suit à peu près la loi normale réduite. 


Si F est une variable aléatoire 
qui suit la loi de Snedecor à 
(1,122) degrés de liberté, la 
table donne le nombre f, tel que 
P(F > fa) = à = 0,025. 


239 


ol te 


CN 
© © © 1 A Ua B © D 


957 | 969 | 985 
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Lois 


Si Fest une variable aléatoire 

qui suit la loi de Snedecor à 

(1,22) degrés de liberté, la 

table donne le nombre f,, tel 7 
que PF > 7) —=4—0,05,. ol fa 
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La table donne la valeur m,, tel que P(M < ma) = à = 0,05 pour deux 
échantillons d’effectifs n1 et n2 avec ni < m2. 
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La table donne la valeur m,, tel que P(M < m,) = à = 0,01 pour deux 
échantillons d’effectifs n1 et n2 avec ñnj < m2. 


M2 

4151617|8|91|10|11]112|13|14/15]/16117118| 19 | 20 
2 = — 0! 0 
3 =i=|=|—=|=|"0| 0! 0).1| 1] 1] 21 2/2] 2) 3 | 3 
4 —|—-101011|1[2| 21 3|[ 3| 4] 5| 5, 6, 6] 7| 8 
5 0111112131 4|5|6| 7| 7| 8| 9110/11|12 | 13 
6 213141] 5] 6| 7] 9110|11|112|113|15|16| 17 | 18 
7 416! 7| 9110|112|13|15116|18/19/|21| 22 | 24 
8 71 9/11113115117118/20|22124 26 | 28 | 30 
9 11113116118120122124127129|31| 33 | 36 
10 16118121124126129131134137| 39 | 42 
11 21124127|130|133|136|39|42]| 45 | 48 
12 27131|134137|41|44|147] 51 | 54 
13 34138 |42145|49|53| 57 | 60 
14 42|146|50154158| 63 | 67 
15 511551601641 68 | 73 
16 60165170] 74 | 79 
17 70|75| 81 | 86 
18 81| 87 | 92 
19 93 | 99 
20 105 

BLE 9 
N(N+1) 


La table donne la valeur w,, tel que P(W < w,) = «, dans les cas 
a = 0,05 et a = 0,01. 


peblepiee teste 
0,05 468 li 14/17/21 25 30 |35 ]40 46152 159 |66/73 81 | 89] 
0,01 [0 21315 rois 16 20 |23 [28 32 38 [43 149 | 55 |61 | 68] 


Tables 


d.d.I. 


0,1726 
0,1638 


0,4227 


0,3809 
0,3494 
0,3246 
0,3044 
0,2875 
0,2732 
0,2500 
0,2319 
0,2172 
0,2050 


0,1946 
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TABLE 11 


Coefficient de corrélation de rang de Spearman 


La table donne la valeur r, tel que P(IRs| > ra) = @. 


TABLE 12 
Test de Kruskal et Wallis 


La table donne la valeur h,, tel que P(H > h4) = à. 


Taille des 
échantillons 


3 
3 
3 
3 
4 
4 
4 
4 
4 
4 
4 
4 
4 
5 
5 
5 
5 
5 
5 
5 
5 
5 
5 
5 
5 
5 
5 
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Glossaire 


Échantillon représentatif : la représentativité d’un échantillon dépend 
de l’observation effectuée. Il s’agit de reproduire les répartitions, 
connues dans la population, qui ont de l’influence sur l’étude. Pour un 
sondage relatif à des intentions de vote, on va reproduire, en pourcen- 
tages, les tranches d’âge, le sexe, les zones d’habitat, les catégories 
socio-professionnelles, les revenus .… mais il est inutile de tenir compte 
des cheveux ou de la taille des individus, sauf si un parti des chauves se 
créait ! 

Il faut aussi veiller à prélever les individus de façon aléatoire et non par 
commodité ou par volontariat. Par exemple, en 1989, Europe 1 a deman- 
dé à ses auditeurs de téléphoner leur opinion sur le permis à points. Le 
nombre d’appels a été très important, mais le résultat était très biaisé car 
ce sont surtout les opposants qui téléphonent ! 


Échantillons indépendants ou appariés : lorsque les individus sont 
considérés comme interchangeables par rapport à l’étude en cours, l’ex- 
périmentateur prend des échantillons séparés, indépendants. 

Lorsque la variabilité entre les individus est forte et doit être gommée, 
on considère les mêmes individus dans deux situations différentes. Les 
mesures obtenues constituent alors des échantillons appariés, car les 
valeurs sont associées par paires. 

À ne pas confondre avec échantillons avariés (agro-alimentaire) ou 
appareillés (orthopédie), termes rencontrés sur des prises de notes d’étu- 
diants ! 


Loi de Poisson : c’est une loi qui modélise une situation aléatoire où les 
possibilités sont des entiers naturels. C’est souvent le nombre d’appari- 
tions d’un événement rare. 

Par exemple, pour étudier la répartition de la rouille sur un bâteau de 
pêche, on peut diviser la coque en petites surfaces et compter le nombre 
de taches dans une surface donnée. Ce nombre est aléatoire et un bon 
modèle est une loi de Poisson ! Sourire autorisé. 

Si vous ajoutez, ce qui n’a rien à voir, la loi de Fisher, décidemment la 
statistique a des rencontres amusantes ! 
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Moyenne : vous savez depuis longtemps calculer votre moyenne scolai- 
re : vous additionnez vos notes et vous divisez par le nombre de notes. Il 
s’agit de la moyenne arithmétique. 

Vous avez remarqué que le résultat n’est pas toujours une note observée. 
Figurez-vous que des journalistes ne le savent pas : ils ricanent sur des 
femmes qui mettent au monde en moyenne 1,87 enfants en se deman- 
dant comment accoucher d’une fraction d’enfant ! 

Mais si je vous posais la question suivante : 

un cycliste monte un col à 20 km.h"! ef le redescend à 60 km.h”! ; quel- 
le est sa vitesse moyenne ?, 

certains répondraient 40, qui est la moyenne arithmétique. 


d 
Alors que, si d désigne la longueur du col, les durées sont de 20 puis 60 


pour une distance 2d, ce qui donne comme moyenne 


2d 
RS ni = 30 qui est la moyenne harmonique des deux 


20:60 20 60 
vitesses. 


Donc le mot moyenne ne doit pas vous faire perdre vos moyens ! 


Population normale : ce terme curieux laisse penser qu’il y a des popu- 

lations anormales. Il signifie seulement qu’on s’intéresse à une variable 

aléatoire X définie sur cette population, et que X suit une loi dite de 

Gauss, ou de Laplace-Gauss, ou normale. Le terme synonyme est popu- 

lation gaussienne. 

La loi normale est souvent utilisée car elle permet de modéliser une 

mesure qui est le cumul d’un grand nombre de petits phénomènes aléa- 

toires indépendants. 

Pour accepter l’hypothèse qu’une population est normale, à partir d’ob- 

servations nombreuses, on peut : 

— tracer l’histogramme des mesures et contrôler visuellement qu’il res- 
semble à une courbe en cloche ; 

— faire une vérification graphique en utilisant un papier, dit gausso- 
arithmétique, quadrillé de sorte que les points que l’on reporte soient 
alignés pour une population normale ; 

— faire un test de conformité du x? ; 

— utiliser un ordinateur pour un test plus évolué, comme le test de 
Kolmogorov-Smirnov. 

Risque : en statistique inférentielle, on est amené à prendre des déci- 

sions à partir d'informations incomplètes. Si vous rajoutez la variabilité 

du vivant, toute affirmation est donc liée à un risque de se tromper. 
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Dans le cas d’un intervalle de confiance, on souhaite affirmer qu’un 

paramètre appartient à un intervalle 7 avec un risque a. Les deux objec- 

tifs : précision (intervalle réduit), sécurité (a réduit) sont contradictoires. 

Il faut donc choisir un compromis. Par exemple, lors d’une soirée élec- 

torale, les instituts de sondage donnent dès 20 heures un intervalle où 

devrait se situer le résultat définitif d’un candidat, en oubliant que cette 

affirmation se fait avec un certain risque. 

Cet intervalle de confiance s’appelle une fourchette, bien que les télé- 

spectateurs ne soient pas toujours à table ! 

Risque de première espèce, risque de deuxième espèce : quand on 

teste une hypothèse simple, hypothèse nulle (45), contre une hypothèse 

simple, hypothèse alternative (H,), chaque affirmation a lieu avec un 

certain risque. 

La décision de rejeter (Ho) se prend avec un risque à de première 

espèce. 

La décision de rejeter (4,) se prend avec un risque 5 de deuxième 

espèce. 

Le concepteur d’un nouveau test s’intéresse à sa puissance 1 — G. 

L'utilisateur s'intéresse seulement à « et ses conclusions sont : 

— je rejette (Ho) au risque a ; 

— je ne rejette pas (Ho), ou j'accepte (Ho), avec l’unique expérience 
disponible ; mais gardez un vocabulaire prudent ! 

Tests de rangs : dans certains domaines, comme la comparaison de 

goûts en agro-alimentaire, ou dans les sciences humaines, on dispose de 

classements. Dans d’autres cas, on a des mesures peu nombreuses issues 

d’une population inconnue. On les remplace alors par des rangs. 

Les tests qui traitent ces situations sont les tests non-paramétriques. 

Contrairement aux autres tests, la valeur de la variable de décision ne 

résulte pas d’une formule, mais d’un processus de comptage. Mais la 

prise de décision est la même : la valeur de la variable de décision appar- 

tient à une zone de probabilité & (dont les bornes se lisent dans des tables 

adaptées) et l’hypothèse nulle (H5) est rejetée ; sinon (Ho) est acceptée. 


Variance : aussi bien dans la pratique (caractère statistique quantitatif) 
que dans la modélisation (variable aléatoire), la variance est une mesure 
de la dispersion des valeurs, observées ou possibles, par rapport à la 
moyenne. La présence des carrés dans la définition empêche que les 


écarts positifs et négatifs puissent se compenser. 


Si les mesures sont en cm, la moyenne est en em et la variance en cm?. 


Il est donc intéressant d’introduire sa racine carrée, appelée écart type, 
qui est aussi en Cm. 


Index 


A 
amplitude 4 
ANOVA 174 
arrangement 35 

B 
Bartlett (test de) 179 
Bayes 46 

C 


caractère continu 3 
caractère discret 3 

caractère qualitatif 3 
caractère quantitatif 3 
caractère statistique 3 
classe statistique 4 
coefficient de corrélation 60 
coefficient de variation 7 
combinaisons 36 

converge 89 

correction de continuité 93 
couple de variables aléatoires 58 
covariance 19, 60 


D 


densité 4 

densité de probabilité 90 
distribution à deux dimensions 17 
distribution de probabilité 58 
distributions conditionnelles 18 
distributions marginales 18 

droite de régression 21 


E 


écart interquartile 7 
écart type 6, 60, 89 


échantillon appariés 104 
échantillons indépendants 104 
échantillonnage 103 

effectif 4 

effectif cumulé 4 

espace probabilisable 33 
espace probabilisé 33 
espérance mathématique 60, 91 
estimateur convergent 104 
estimateur sans biais 104 
étendue 7 

événement 31 

événements indépendants 46 
exhaustif (échantillon) 104 
expérience aléatoire 31 
expériences indépendantes 47 


E 


Fisher (test de) 141 

fonction de répartition 58 

formule des probabilités totales 46 
fréquence 4 

fréquence cumulée 4 


H 


histogramme 5 
hypothèse alternative 119 
hypothèse nulle 119 


indépendance statistique 18 
individu 3 

intégrale convergente 75 
intégrale divergente 89 
intervalle de confiance 107 
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K 

Koenigs 60 

Kruskal et Wallis (test de) 222 
L 


loi binomiale 61 

loi continue uniforme 91 
loi de Poisson 78 

loi des grands nombres 48 
loi discrète uniforme 61 
loi exponentielle 92 

loi géométrique 78 

loi normale 92 

lois de Snedecor 159 


M 


Mann et Whitney (test de) 220 
médiane 6 
méthode des moindres carrés 20 


méthode du maximum de vraisem- 


blance 110 
mode 6 

moments 8 
moyenne 5 


N 
non-exhaustif (échantillon) 104 
non-paramétriques (tests) 219 
P 


permutation 35 

population 3 

probabilité conditionnelle 43 
probabilité uniforme 34 


Index 


R 


risque de deuxième espèce 120 
risque de première espèce 120 
risque relatif 48 


S 


série absolument convergente 76 
série convergente 75 

série divergente 76 

série exponentielle 76 

série géométrique 76 

séries de Riemann 76 

Spearman (test de) 219 

système complet d'événements 32 


: 
test d’homogénéité du x? 123 


test de conformité du x? 121 
tribu 32 


V 


variable aléatoire 57 
variable centrée réduite 61 


variables aléatoires indépendantes 58 


variance 6, 60, 91 

variance factorielle 174 

variance résiduelle 174, 192 
W 

Wilcoxon (test de) 221 


